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Prefácio 


EEE PP PPP 
Quando um texto pode ser lido sem esforço, muito empenho foi dedicado a escrevê-lo. 


Esta edição de Processamento digital de imagens re- 

presenta uma grande revisão do livro. Como nas edi- 
ções de 1977 e 1987, de Gonzalez e Wintz, e nas edições 
de 1992 e 2002, de Gonzalez e Woods, esta edição da 
quinta geração foi preparada tendo em mente alunos e 
professores. Os principais objetivos do livro continuam 
sendo apresentar uma introdução às metodologias e aos 
conceitos básicos do processamento digital de imagens e 
desenvolver bases para estudos e pesquisas posteriores 
na área. Para atingir esses objetivos, mais uma vez nos 
concentramos no conteúdo que acreditamos ser funda- 
mental e cujo escopo de aplicação não se limita à solução 
de problemas especializados. A complexidade matemáti- 
ca do livro continua em um nível que pode ser facilmente 
dominado, tanto por estudantes no último ano do ensino 
médio, quanto por alunos do primeiro ano do ensino su- 
perior que tenham uma preparação introdutória em aná- 
lise matemática, vetores, matrizes, probabilidade, estatís- 
tica, sistemas lineares e programação de computadores. 
O site do livro na Internet traz tutoriais em inglês para 
ajudar os leitores que necessitem de uma revisão desse 
conteúdo básico. 
Uma das principais razões pelas quais este livro tem sido 
o líder mundial na área por mais de 30 anos é o nível de 
atenção que dedicamos às necessidades educacionais de 
nossos leitores. A edição atual se baseia no mais extenso 
levantamento que já conduzimos. O levantamento en- 
volveu professores, alunos e leitores independentes do 
livro em 134 instituições de 32 países. As principais con- 
clusões da pesquisa indicaram uma necessidade de: 


e uma introdução mais abrangente no início do livro 
às ferramentas matemáticas utilizadas no processa- 
mento de imagens; 

e uma explicação mais aprofundada das técnicas de 
processamento de histogramas; 

e explicação dos algoritmos mais complexos com re- 
sumos passo a passo; 


Enrique Jardiel Poncela 


e uma explicação mais profunda da convolução e cor- 
relação espaciais; 

e uma introdução à teoria de conjuntos fuzzy e sua 
aplicação ao processamento de imagens; 


e uma revisão do conteúdo sobre o dominio da fre- 
quência, começando com os princípios básicos e de- 
monstrando como a transformada discreta de Fou- 
rier resulta da amostragem de dados; 


e uma cobertura sobre a tomografia computadorizada 
(CT, de computerized tomography); 


e esclarecimentos dos conceitos básicos no capítulo 
sobre as wavelets; 


e uma revisão do capítulo sobre a compressão de da- 
dos para incluir mais técnicas de compressão de vi- 
deo, padrões atualizados e marcas d'água; 


e uma expansão do capítulo sobre morfologia para 
incluir a reconstrução morfológica e uma revisão da 
morfologia em níveis de cinza; 


e uma expansão da cobertura sobre a segmentação 
de imagens para incluir técnicas mais avançadas de 
detecção de bordas, como o algoritmo de Canny, e 
um tratamento mais abrangente da limiarização de 
imagens; 

e uma atualização do capítulo sobre a descrição e re- 
presentação de imagens; 


e uma simplificação do conteúdo sobre reconheci- 
mento estrutural de objetos. 


O novo e reorganizado material resultante, apresentado 
nesta edição, representa a nossa tentativa de proporcio- 
nar um grau razoável de equilíbrio entre rigor, clareza 
de apresentação e as conclusões da pesquisa de mercado, 
enquanto, ao mesmo tempo, mantemos a extensão do li- 
vro em um nível aceitável. As principais mudanças desta 
edição do livro são relacionadas a seguir. 


xiv Processamento digital de imagens 


Capítulo 1: algumas figuras foram atualizadas e parte 
do texto foi rescrito para corresponder às alterações reali- 
zadas nos capítulos posteriores. 


Capítulo 2: aproximadamente 50 por cento desse ca- 
pítulo foi revisto para incluir novas imagens e explicações 
mais claras. As principais revisões incluem uma nova seção 
sobre a interpolação de imagens e uma nova seção abran- 
gente resumindo as principais ferramentas matemáticas 
utilizadas no livro. Em vez de apresentar conceitos mate- 
máticos “isolados”, um após o outro, contudo, aproveita- 
mos a oportunidade para agregar no Capítulo 2 uma série 
de aplicações de processamento de imagens que antes es- 
tavam espalhadas por todo o livro. Por exemplo, a média 
de imagens e a subtração de imagens foram transferidas 
para esse capítulo para ilustrar operações aritméticas. 
Isso segue uma tendência que inauguramos na segunda 
edição do livro, de apresentar o maior número possível 
de aplicações no início do texto, não somente a título de 
exemplo, mas também como uma motivação para os alu- 
nos. Depois de concluir o recém-organizado Capítulo 2, 
o leitor terá um conhecimento básico de como as ima- 
gens digitais são manipuladas e processadas. Isso consti- 
tui uma base sólida que fundamenta o restante do livro. 


Capítulo 3: as principais revisões desse capítulo in- 
cluem uma análise detalhada da convolução e correlação 
espacial e sua aplicação à filtragem de imagens utilizan- 
do máscaras espaciais. A pesquisa de mercado também 
sugeriu a inclusão de exemplos numéricos para ilustrar 
a especificação e a equalização de histogramas, de for- 
ma que incluímos vários desses exemplos para ilustrar o 
funcionamento dessas ferramentas de processamento. O 
material sobre conjuntos fuzzy e sua aplicação no proces- 
samento de imagens também foi solicitado com frequ- 
ência em nosso levantamento. Incluímos nesse capítulo 
uma nova seção sobre as bases da teoria dos conjuntos 
fuzzy e sua aplicação nas transformações de intensidade 
e filtragem espacial, duas das principais utilizações dessa 
teoria no processamento de imagens. 


Capitulo 4: 0 que mais ouvimos nos comentários e 
sugestões durante os quatro últimos anos dizia respeito 
às mudanças que fizemos no Capítulo 4 da primeira para 
a segunda edição. Nosso objetivo ao fazer essas mudanças 
foi simplificar a apresentação da transformada de Fou- 
rier e do domínio da frequência. Nós claramente fomos 
longe demais e muitos leitores reclamaram que o novo 
conteúdo era muito superficial. Corrigimos esse pro- 
blema na edição atual. O conteúdo agora começa com 
a transformada de Fourier de uma variável contínua e 
prossegue deduzindo a transformada discreta de Fourier 


começando com os conceitos básicos da amostragem e 
da convolução. Um resultado do fluxo desse material é 
uma dedução intuitiva do teorema da amostragem e suas 
implicações. O conteúdo 1-D é então estendido para 2-D, 
quando apresentamos vários exemplos para ilustrar os 
efeitos da amostragem em imagens digitais, incluindo o 
aliasing e os padrões moiré. A transformada discreta de 
Fourier 2-D é, então, exemplificada e várias propriedades 
importantes são deduzidas e resumidas. Esses conceitos 
são então utilizados como a base para a filtragem no do- 
mínio da frequência. Por fim, analisamos questões de im- 
plementação, como a decomposição da transformada e a 
dedução do algoritmo da transformada rápida de Fourier. 
Ao final desse capítulo, o leitor terá progredido da amos- 
tragem de funções 1-D até um desenvolvimento claro dos 
fundamentos da transformada discreta de Fourier e algu- 
mas das mais importantes aplicações no processamento 
digital de imagens. 


Capítulo 5: a principal revisão neste capítulo foi o 
acréscimo de uma seção sobre a reconstrução de imagens 
a partir de projeções, com foco na tomografia computa- 
dorizada (CT). Iniciamos nossa análise da CT com um 
exemplo intuitivo dos princípios básicos da reconstrução 
de imagens a partir de projeções e as várias modalidades 
de aquisição de imagens utilizadas na prática. Depois, de- 
duzimos o teorema da fatia de Fourier e a transformada 
de Radon e os utilizamos como a base para formular o 
conceito de retroprojeções filtradas. A reconstrução, tan- 
to por feixes paralelos quanto por feixes em formato de 
leque, é discutida e ilustrada com a utilização de vários 
exemplos. A inclusão desse material foi adiada por tempo 
demais e representa um importante acréscimo ao livro. 


Capítulo 6: as revisões desse capítulo se limitaram 
a esclarecimentos e algumas correções na notação. Ne- 
nhum novo conceito foi incluído. 


Capítulo 7: recebemos diversos comentários sobre o 
fato de os iniciantes apresentarem dificuldades na transi- 
ção dos capítulos anteriores até as wavelets. Várias das se- 
ções de fundamentação foram reelaboradas na tentativa 
de esclarecer o conteúdo. 


Capítulo 8: esse capítulo foi totalmente rescrito e atu- 
alizado. Novas técnicas de codificação, cobertura expan- 
dida de vídeos, uma revisão da seção sobre padrões e uma 
introdução à inserção de marcas d'água em imagens es- 
tão entre as principais alterações. A nova organização fa- 
cilitará aos estudantes iniciantes acompanhar o material. 
Capítulo 9: as principais alterações nesse capítulo foram a 
inclusão de uma nova seção sobre a reconstrução morfo- 
lógica e uma revisão completa da seção sobre morfologia 


em níveis de cinza. A inclusão da reconstrução morfo- 
lógica, tanto para imagens binárias quanto em níveis de 
cinza, possibilitou o desenvolvimento de algoritmos mor- 
fológicos mais complexos e úteis do que antes. 


Capítulo 10: esse capítulo também passou por uma 
grande revisão. A organização continua a mesma, mas 
o novo conteúdo inclui uma ênfase maior nos princípios 
básicos, bem como uma análise de técnicas de segmen- 
tação mais avançadas. Modelos de borda são discutidos 
e exemplificados em mais detalhes, bem como as pro- 
priedades do gradiente. Os detectores de bordas de Marr- 
Hildreth e de Canny foram incluídos para ilustrar técnicas 
mais avançadas de detecção de bordas. A seção sobre a 
limiarização também foi rescrita para incluir o método 
de Otsu, uma técnica de limiarização ótima cuja popula- 
ridade tem aumentado significativamente ao longo dos 
últimos anos. Incluímos essa técnica no lugar da limiari- 
zação ótima baseada na regra de classificação de Bayes, 
não só por ser de compreensão e implementação mais fa- 
cil, mas também por ser utilizada relativamente com mais 
frequência na prática. O método de Bayes foi transferido 
para o Capítulo 12, no qual a regra de decisão de Bayes 
é analisada em mais detalhes. Também incluímos uma 
discussão sobre como utilizar as informações de bordas 
para melhorar a limiarização e vários novos exemplos de 
limiarização adaptativa. Com exceção de pequenos escla- 
recimentos, as seções sobre watersheds morfológicos e a 
utilização de movimento para a segmentação foram man- 
tidas como na edição anterior. 


Capítulo 11: as principais alterações nesse capítulo 
foram a inclusão de um algoritmo de seguidor de fron- 
teira, uma dedução detalhada de um algoritmo para 
encaixar um polígono de perímetro mínimo em uma 
fronteira digital e uma nova seção sobre matrizes de co- 
ocorrência para a descrição de texturas. Vários exem- 
plos das seções 11.2 e 11.3 são novos, bem como todos 
os exemplos da Seção 11.4. 


Capítulo 12: as alterações nesse capítulo incluem 
uma nova seção sobre o casamento por correlação e um 
novo exemplo sobre a utilização do classificador de Bayes 
para reconhecer regiões de interesse em imagens mul- 
tiespectrais. A seção sobre a classificação estrutural agora 
se limita apenas ao casamento de strings. 


Todas as revisões mencionadas acima resultaram 
em mais de 400 novas imagens, mais de 200 novas ilus- 
trações e tabelas e mais de 80 novos exercícios. Sempre 
que apropriado, procedimentos de processamento de 
imagens mais complexos foram resumidos na forma da 
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dedução passo a passo de algoritmos. As referências ao 
final de todos os capítulos também foram atualizadas. 


Esta edição de Processamento digital de imagens refle- 
te como as necessidades educacionais dos nossos leitores 
mudaram desde 2002. Como costuma ser o caso em um 
projeto como este, a área continua progredindo depois da 
conclusão do manuscrito. Uma das razões pelas quais este 
livro tem tamanha aceitação desde sua primeira edição, 
em 1977, é sua ênfase continuada nos conceitos funda- 
mentais — uma abordagem que, entre outros fatores, ten- 
ta proporcionar uma medida de estabilidade em uma área 
de conhecimento em rápida evolução. Tentamos seguir o 
mesmo princípio na preparação desta edição do livro. 


RGG: 
R. E. W. 


Companion Website (em inglês) 


EN 


Companion 
Website 


www.prenhall.com/gonzalezwoods_br 


Processamento digital de imagens é um 
livro autônomo. No entanto, o site que o 
acompanha oferece suporte adicional em 
uma série de áreas importantes. 


Para o leitor independente ou estudante, o site 
contém: 


e revisões em áreas como probabilidade, estatística, 
vetores e matrizes (em inglês); 


e respostas dos exercícios selecionados; 

e projetos computacionais (em inglês); 

e dezenas de tutoriais (em inglês) para a maioria dos 
tópicos cobertos no livro; 

e um banco de dados com todas as imagens do livro. 
Para o professor, o site contém: 


e um manual do professor (em inglês), com soluções 
completas para todos os exercícios do livro, bem 
como orientações para o curso teórico e para as aulas 
práticas; 

e materiais em PowerPoint para apresentação em sala 
de aula; 

e vários links para outras fontes educativas. 


Para o profissional, o site contém tópicos especiali- 
zados adicionais, como: 


e links para sites comerciais; 
e novas referências selecionadas; 


e links para banco de dados de imagens comerciais. 
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Capítulo 


Introdução 


Uma imagem vale mais do que mil palavras. 
Anônimo 


Apresentação 


O interesse nos métodos de processamento digital de imagens provém de duas áreas principais de aplicação: 
melhora das informações visuais para a interpretação humana e processamento de dados de imagens para 
armazenamento, transmissão e representação, considerando a percepção automática por máquinas. Este 
capítulo tem vários objetivos: (1) definir o escopo da área que chamamos de processamento de imagens; (2) 
apresentar uma perspectiva histórica das origens dessa área; (3) dar uma ideia do que há de mais avançado 
em processamento de imagens analisando algumas das principais áreas nas quais ele é aplicado; (4) anali- 
sar brevemente as principais abordagens utilizadas no processamento digital de imagens; (5) mostrar uma 
visão geral dos componentes contidos em um sistema de processamento de imagens típico; e (6) oferecer 
um referencial bibliográfico e outras fontes nas quais o trabalho relativo ao processamento de imagens nor- 


malmente é relatado. 


1.1 O que é processamento digital de 
imagens? 


Uma imagem pode ser definida como uma função 
bidimensional, f (x, y), em que x e y são coordenadas 
espaciais (plano), e a amplitude de fem qualquer par de 
coordenadas (x, y) é chamada de intensidade ou nível de 
cinza da imagem nesse ponto. Quando x, y e os valores 
de intensidade de f são quantidades finitas e discretas, 
chamamos de imagem digital. O campo do processamento 
digital de imagens se refere ao processamento de imagens 
digitais por um computador digital. Observe que uma 
imagem digital é composta de um número finito de ele- 
mentos, cada um com localização e valor específicos. 
Esses elementos são chamados de elementos pictóricos, 
elementos de imagem, pels e pixels. Pixel é o termo mais 
utilizado para representar os elementos de uma imagem 
digital. Analisaremos essas definições em termos mais 
formais no Capítulo 2. 


A visão é o mais avançado dos nossos sentidos, de 
forma que não é de surpreender que as imagens exerçam 
o papel mais importante na percepção humana. No en- 


tanto, diferentemente dos seres humanos, que são limi- 
tados à banda visual do espectro eletromagnético (EM), 
os aparelhos de processamento de imagens cobrem qua- 
se todo o espectro EM, variando de ondas gama a ondas 
de rádio. Eles podem trabalhar com imagens geradas por 
fontes que os humanos não estão acostumados a associar 
com imagens. Essas fontes incluem ultrassom, microsco- 
pia eletrônica e imagens geradas por computador. Dessa 
forma, o processamento digital de imagens inclui um am- 
plo e variado campo de aplicações. 


Não existe um acordo geral entre os autores em 
relação ao ponto em que o processamento de imagens 
termina e outras áreas relacionadas, como a análise de 
imagens e a visão computacional, começam. Algumas ve- 
zes, uma distinção é traçada definindo o processamento 
de imagens como uma disciplina na qual tanto a entrada 
quanto a saída de um processo são imagens. Acreditamos 
que essa fronteira é restritiva e, de certa forma, artificial. 
Por exemplo, nessa definição, até a tarefa trivial de calcu- 
lar a intensidade média de uma imagem (que resulta em 
um único número) não seria considerada uma operação 
de processamento de imagens. Por outro lado, existem 


2 Processamento digital de imagens 


campos como o da visão computacional, cuja meta é uti- 
lizar computadores para emular a visão humana, incluin- 
do o aprendizado e a capacidade de fazer inferências e 
agir com base em informações visuais. Essa área repre- 
senta um ramo da inteligência artificial (AI, de artificial 
intelligence) cujo objetivo é emular a inteligência humana. 
A área da AI ainda está em seus estágios iniciais de de- 
senvolvimento e o progresso tem sido muito mais len- 
to do que o originalmente previsto. A área da análise de 
imagens (também chamada de compreensão de imagens) 
está situada entre o processamento de imagens e a visão 
computacional. 


Não existem limites claros se considerarmos uma li- 
nha contínua com o processamento de imagens em um 
extremo e a visão computacional no outro. No entanto, 
um paradigma útil seria levar em consideração três ti- 
pos de processos computacionais nessa linha contínua: 
processos de níveis baixo, médio e alto. Os processos de 
nível baixo envolvem operações primitivas, como o pré- 
-processamento de imagens para reduzir o ruído, o real- 
ce de contraste e o aguçamento de imagens. Um processo 
de nível baixo é caracterizado pelo fato de tanto a en- 
trada quanto a saída serem imagens. O processamento 
de imagens de nível médio envolve tarefas como a seg- 
mentação (separação de uma imagem em regiões ou ob- 
jetos), a descrição desses objetos para reduzi-los a uma 
forma adequada para o processamento computacional e 
a classificação (reconhecimento) de objetos individuais. 
Um processo de nível médio é caracterizado pelo fato de 
suas entradas, em geral, serem imagens, mas as saídas são 
atributos extraídos dessas imagens (isto é, bordas, con- 
tornos e a identidade de objetos individuais). Por fim, o 
processamento de nível alto envolve “dar sentido” a um 
conjunto de objetos reconhecidos, como na análise de 
imagens e, no extremo dessa linha contínua, realizar as 
funções cognitivas normalmente associadas à visão. 


Com base nos comentários anteriores, vemos que 
um ponto lógico de sobreposição entre o processamento 
e a análise de imagens é a área de reconhecimento de re- 
giões ou objetos individuais em uma imagem. Dessa for- 
ma, 0 que chamamos neste livro de processamento digital de 
imagens envolve processos cujas entradas e saídas são ima- 
gens e, além disso, envolve processos de extração de atri- 
butos de imagens até — e inclusive — o reconhecimento 
de objetos individuais. Como exemplo para esclarecer es- 
ses conceitos, considere a área de análise automática de 
textos. Os processos de aquisição de uma imagem da área 
que contém o texto, o pré-processamento dessa imagem, 
a extração (segmentação) dos caracteres individuais, a 
descrição dos caracteres em uma forma adequada para o 


processamento computacional e o reconhecimento desses 
caracteres individuais estão no escopo do que chamamos, 
neste livro, de processamento digital de imagens. Dar sen- 
tido ao conteúdo da página pode ser considerado no âm- 
bito da análise de imagem e até mesmo da visão computa- 
cional, dependendo do nível de complexidade envolvido 
na expressão “dar sentido”. Como ficará claro em breve, 
o processamento digital de imagens, na nossa definição, é 
utilizado com sucesso em uma ampla variedade de áreas 
de excepcionais valores social e econômico. Os conceitos 
desenvolvidos nos capítulos a seguir compõem o funda- 
mento dos métodos utilizados nessas áreas de aplicação. 


1.2 As origens do processamento digital 
de imagens 


Uma das primeiras aplicações das imagens digitais 
ocorreu na indústria dos jornais, quando as imagens eram 
enviadas por cabo submarino entre Londres e Nova York. 
A implementação do sistema de transmissão de imagens 
por cabo submarino (cabo Bartlane) no início da década 
de 1920 reduziu de mais de uma semana para menos de 
três horas o tempo necessário para transportar uma fo- 
tografia pelo oceano Atlântico. Um equipamento de im- 
pressão especializado codificava as imagens para a trans- 
missão a cabo e depois as reconstruía no recebimento. A 
Figura 1.1 foi transmitida dessa forma e reproduzida em 
uma impressora telegráfica, equipada com fontes tipográ- 
ficas para a simulação de padrões de tons intermediários. 


Alguns dos problemas iniciais na melhora da qualida- 
de visual dessas primeiras figuras digitais se relacionavam 


Figura 1.1 Fotografia digital produzida em 1921 com base em uma 
fita codificada por uma impressora telegráfica com fontes tipográficas 
especiais. (McFarlane.”) 


As referências na Bibliografia no final do livro estão organizadas 
em ordem alfabética pelo sobrenome dos autores. 


à seleção de procedimentos de impressão e à distribuição 
dos níveis de intensidade. O método de impressão utilizado 
para obter a Figura 1.1 foi substituído no final de 1921 
por uma técnica baseada na reprodução fotográfica com 
base em fitas perfuradas no terminal receptor telegráfico. 
A Figura 1.2 mostra uma imagem obtida utilizando esse 
método. As melhoras em relação à Figura 1.1 são claras, 
tanto na qualidade tonal quanto na resolução. 


Os primeiros sistemas Bartlane eram capazes de co- 
dificar imagens em cinco níveis de cinza distintos. Essa ca- 
pacidade aumentou para 15 níveis em 1929. A Figura 1.3 
mostra um exemplo típico de imagens que poderiam ser 
obtidas utilizando o equipamento de 15 níveis de cinza. 
Durante esse período, a introdução de um sistema para 
revelação de uma chapa fotográfica por meio de feixes de 
luz modulados pela fita de imagem codificada melhorou 
consideravelmente o processo de reprodução. 


Apesar de os exemplos que acabamos de citar en- 
volverem imagens digitais, não são considerados resul- 
tados de processamento digital de imagens no contexto 
de nossa definição porque sua criação não envolvia o 
uso de computadores. Dessa forma, a história do pro- 
cessamento digital de imagens tem estreita relação com 
o desenvolvimento do computador digital. Na verdade, 
imagens digitais necessitam tanto de capacidade de ar- 
mazenamento e desempenho computacional que o pro- 
gresso na área de processamento digital de imagens tem 
dependido do desenvolvimento de computadores digitais 
e tecnologias relacionadas, incluindo armazenamento de 
dados, visualização e transmissão. 


O conceito de computador remonta à invenção do 
ábaco na Ásia Menor, mais de 5 mil anos atrás. Mais re- 
centemente, nos últimos dois séculos, avanços formaram 
as bases para o desenvolvimento do que hoje denomina- 


Figura 1.2 Fotografia digital de 1922 com base em uma fita perfu- 
rada depois que os sinais cruzaram duas vezes o oceano Atlântico. 
(McFarlane.) 
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Figura 1.3 Fotografia sem retoques dos generais Pershing e Foch, 
transmitida por cabo em 1929 de Londres a Nova York por um equipa- 
mento de 15 níveis de cinza. (McFarlane.) 


mos computador. No entanto, a base do que chamamos 
computador digital moderno remonta só à década de 1940, 
com a introdução, por John von Neumann, de dois con- 
ceitos-chave: (1) uma memória para armazenamento de 
programa e dados; e (2) a ramificação condicional. Essas 
duas ideias constituem os fundamentos de uma unidade 
central de processamento (CPU, de central processing unit), 
que está no coração dos computadores atuais. Desde von 
Neumann, uma série de importantes avanços foi realiza- 
da levando a computadores poderosos o suficiente para 
serem utilizados no processamento digital de imagens. 
Em resumo, esses avanços podem ser descritos como: (1) 
a invenção do transistor na Bell Laboratories em 1948; 
(2) o desenvolvimento, nas décadas de 1950 e 1960, das 
linguagens de programação de alto nível Cobol (Common 
Business-Oriented Language) e Fortran (Formula Translator); 
(3) a invenção do circuito integrado (CI) na Texas Instru- 
ments em 1958; (4) o desenvolvimento de sistemas ope- 
racionais no início da década de 1960; (5) o desenvolvi- 
mento do microprocessador (um único chip consistindo 
em uma unidade central de processamento, memória e 
controles de entrada e saída) pela Intel no início da déca- 
da de 1970; (6) o lançamento, pela IBM, do computador 
pessoal em 1981; e (7) a miniaturização progressiva de 
componentes, a começar pela integração em larga escala 
(LSI, de large scale integration) no final da década de 1970, 
seguida da integração em muito larga escala (VLSI, de very 
large scale integration) na década de 1980, à utilização atual 
de integração em ultralarga escala (ULSI, de ultra large scale 
integration). Paralelamente a esses avanços ocorreram de- 
senvolvimentos nas áreas do armazenamento em massa e 
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de sistemas de visualização, ambos considerados requisitos 
fundamentais para o processamento digital de imagens. 


Os primeiros computadores poderosos o suficiente 
para realizar tarefas de processamento de imagens signifi- 
cativas foram desenvolvidos no início da década de 1960. 
O advento do processamento digital de imagens depen- 
deu da disponibilidade dessas máquinas e do início do 
programa espacial durante esse período. Foi necessária 
a combinação desses dois avanços para chamar a aten- 
ção ao potencial dos conceitos de processamento digital 
de imagens. O emprego de técnicas computacionais para 
melhoramento de imagens produzidas por uma sonda 
espacial teve início no Jet Propulsion Laboratory (Pasa- 
dena, Califórnia) em 1964, quando figuras da Lua trans- 
mitidas pelo Ranger 7 foram processadas por um compu- 
tador para corrigir vários tipos de distorções de imagem 
inerentes à câmera de televisão a bordo. A Figura 1.4 
mostra a primeira imagem da Lua, capturada pelo Ranger 
7 no dia 31 de julho de 1964 às 9h09 (horário EDT dos 
Estados Unidos), cerca de 17 minutos antes do impac- 
to na superfície lunar (os marcadores, chamados marcas 
reseau, são utilizados para correções geométricas, como 
veremos no Capítulo 2). Essa também é a primeira ima- 
gem da Lua tirada por uma espaçonave norte-americana. 
As lições aprendidas com o Ranger 7 serviram como base 
para os métodos avançados de realce e restauração de 
imagens utilizados nas missões do Surveyor à Lua, na série 
de voos da Mariner ao redor de Marte, nos voos tripulados 
da Apollo à Lua, entre outros. 


Paralelamente a essas aplicações espaciais, técnicas 
de processamento digital de imagens começaram a ser 


Figura 1.4 A primeira foto da Lua tirada por uma espaçonave norte- 
-americana. O Ranger7 capturou essa imagem no dia 31 de julho de 
1964 às 9h09 (horário EDT dos Estados Unidos), cerca de 17 minutos 
antes do impacto na superfície lunar. (Cortesia da Nasa.) 


desenvolvidas no final da década de 1960 e início da dé- 
cada de 1970 para serem utilizadas em imagens médicas, 
nas observações remotas de recursos da Terra e na as- 
tronomia. A invenção, no início da década de 1970, da 
tomografia axial computadorizada (CAT, de computerized 
axial tomography), também chamada de tomografia com- 
putadorizada (CT, de computerized tomography), representa 
um dos eventos mais importantes na aplicação do pro- 
cessamento de imagens no diagnóstico médico. A tomo- 
grafia axial computadorizada é um processo no qual um 
anel de detectores circunda um objeto (ou paciente) e 
uma fonte de raios X, concêntrica com o anel de detec- 
ção, gira ao redor do objeto. Os raios X passam através 
do objeto e são coletados na extremidade oposta do anel 
pelos detectores correspondentes. À medida que a fonte 
gira, esse procedimento é repetido. A tomografia consiste 
em algoritmos que utilizam os dados coletados para cons- 
truir uma imagem que representa uma “fatia” do objeto. 
O movimento do objeto em uma direção perpendicular 
ao anel de detectores produz uma série de fatias, que 
constituem uma representação tridimensional (3-D) do 
interior do objeto. A tomografia foi inventada simultane- 
amente, mas de forma independente, por Sir Godfrey N. 
Hounsfield e pelo professor Allan M. Cormack, que dividi- 
ram o Prêmio Nobel de Medicina em 1979 pela invenção. 
É interessante notar que os raios X foram descobertos em 
1895 por Wilhelm Conrad Roentgen, que recebeu por 
isso o Prêmio Nobel de Física em 1901. Essas duas inven- 
ções, com quase 100 anos de diferença, levaram a algu- 
mas das aplicações mais importantes do processamento 
de imagens hoje. 


Da década de 1960 até os dias de hoje, a área de 
processamento de imagens cresceu rapidamente. Além 
das aplicações na medicina e em programas espaciais, as 
técnicas de processamento digital de imagens, atualmen- 
te, são utilizadas em uma ampla variedade de aplicações. 
Procedimentos computacionais são utilizados para realçar 
o contraste ou para codificar os níveis de intensidade em 
cores para facilitar a interpretação de imagens radiográfi- 
cas e outras imagens utilizadas na indústria, na medicina 
e nas ciências biológicas. Geógrafos utilizam as mesmas 
técnicas, ou técnicas similares, para estudar padrões de 
poluição a partir de imagens aéreas e de satélite. Proce- 
dimentos de restauração e realce de imagens são utili- 
zados para processar imagens degradadas de objetos que 
não podem ser recuperados ou de resultados experimen- 
tais muito caros para serem repetidos. Na arqueologia, 
métodos de processamento de imagens têm restaurado 
com sucesso imagens fotográficas borradas, que eram os 
únicos registros disponíveis de artefatos raros que foram 
perdidos ou danificados após serem fotografados. Na física 


e em áreas relacionadas, técnicas computacionais roti- 
neiramente realçam imagens de experimentos em áreas 
como plasmas de alta energia e microscopia eletrônica. 
De maneira similar, aplicações bem-sucedidas dos concei- 
tos de processamento de imagens podem ser encontradas 
em astronomia, biologia, medicina nuclear, aplicação da 
lei (segurança pública), defesa e indústria. 


Esses exemplos ilustram resultados de processa- 
mento destinados à interpretação humana. A segunda 
principal área de aplicação das técnicas de processamento 
digital de imagens, mencionada no início deste capítulo, 
é a resolução de problemas relativos à percepção por má- 
quinas. Nesse caso, o interesse se concentra em procedi- 
mentos para extrair informação de uma imagem de uma 
forma adequada para o processamento computacional. 
Muitas vezes, essas informações têm pouca semelhan- 
ça com as características visuais que os seres humanos 
utilizam na interpretação do conteúdo de uma imagem. 
Exemplos do tipo de informações utilizadas na percepção 
por máquina são os momentos estatísticos, os coeficien- 
tes da transformada de Fourier e as medidas multidimen- 
sionais de distância. Problemas típicos em percepção por 
máquina que costumam utilizar técnicas de processa- 
mento de imagens são o reconhecimento automático de 
caracteres, o sistema de visão computacional industrial 
para inspeção e montagem de produtos, reconhecimento 
militar, processamento automático de impressões digi- 
tais, rastreamento de resultados de imagens radiográficas 
e amostras de sangue e o processamento computacional 
de imagens aéreas e de satélites para previsão do tempo 
e avaliação ambiental. A redução progressiva da razão 
entre o preço e o desempenho dos computadores e a ex- 
pansão das redes de comunicação via Internet criaram 
oportunidades sem precedentes para o desenvolvimento 
contínuo do processamento digital de imagens. Algumas 
dessas áreas de aplicação são ilustradas na seção a seguir. 


1.3 Exemplos de áreas que utilizam o 
processamento digital de imagens 


Hoje em dia, não existe praticamente mais nenhu- 
ma área de empreendimento técnico que não seja im- 
pactada de uma forma ou de outra pelo processamento 
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digital de imagens. Podemos analisar apenas algumas 
dessas aplicações, dados o contexto e o espaço disponí- 
vel para esta discussão. No entanto, apesar de restrito, o 
material apresentado nesta seção não deixará nenhuma 
dúvida no que se refere à amplitude e à importância do 
processamento digital de imagens. Mostraremos, nesta 
seção, várias áreas de aplicação que utilizam rotineira- 
mente técnicas de processamento digital de imagens que 
analisaremos nos capítulos a seguir. Muitas das imagens 
mostradas nesta seção serão utilizadas mais adiante em 
um ou mais exemplos apresentados neste livro. Todas as 
imagens mostradas são digitais. 


As áreas de aplicação do processamento digital de 
imagens são tão variadas que requerem alguma forma de 
organização para que todo seu escopo seja incluído. Uma 
das formas mais fáceis de desenvolver uma compreensão 
básica da extensão das aplicações do processamento de 
imagens é categorizar as imagens de acordo com sua fonte 
(por exemplo, visual, raios X e assim por diante). A prin- 
cipal fonte de energia para imagens utilizada atualmente 
é o espectro eletromagnético de energia. Outras impor- 
tantes fontes de energia incluem a acústica, a ultrassônica 
e a eletrônica (na forma de feixes de elétrons utilizados 
na microscopia eletrônica). Imagens sintéticas, utilizadas 
para modelagem e visualização, são geradas por compu- 
tador. Nesta seção, discutiremos resumidamente como as 
imagens são geradas nessas várias categorias e as áreas nas 
quais elas são aplicadas. Métodos para converter imagens 
em formato digital serão discutidos no próximo capítulo. 


Imagens baseadas na radiação do espectro EM são 
as mais familiares, especialmente as imagens nas bandas 
visuais e de raios X do espectro. Ondas eletromagnéticas 
podem ser interpretadas como ondas senoidais, de vários 
comprimentos, que propagam, ou também podem ser 
vistas como um fluxo de partículas sem massa, cada uma 
se deslocando em um padrão ondulatório e se movendo 
na velocidade da luz. Cada partícula sem massa contém 
uma certa quantidade de energia, denominada fóton. Se 
as bandas espectrais forem agrupadas de acordo com a 
energia por fóton, obtemos o espectro mostrado na Figu- 
ra 1.5, variando de raios gama (mais alta energia) em um 
extremo a ondas de rádio (mais baixa energia) no outro. 


Energia de um fóton (elétron-volts) 


ow 


Raios gama Raios X Ultravioleta Visível 


Infravermelho 


Micro-ondas Ondas de rádio 


Figura 1.5 Espectro eletromagnético organizado de acordo com a energia por fóton. 
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As bandas do espectro EM são mostradas com 
sombreamento para realçar o fato de que elas não são 
distintas, mas sim representam uma transição suave de 
uma à outra. 


13.1 Imagens formadas por raios gama 


As principais utilidades da formação de imagens 
por raios gama incluem a medicina nuclear e as ob- 
servações astronômicas. Na medicina nuclear, o proce- 
dimento é feito pela injeção de um isótopo radioativo 
(ou radioisótopo) no paciente, que emite raios gama à 
medida que se desintegra. As imagens são produzidas 
a partir das emissões coletadas por detectores de raios 
gama. A Figura 1.6(a) mostra a imagem de um escanea- 
mento ósseo completo formada pela emissão de raios 
gama. Imagens desse tipo são utilizadas para localizar 
pontos de doenças ósseas, como infecções ou tumores. 
A Figura 1.6(b) mostra outra importante modalidade 
de imagem nuclear, chamada de tomografia por emissão 


Figura 1.6 Exemplos de imagens geradas por raios gama. (a) Esca- 
neamento ósseo. (b) Imagem de tomografia por emissão de pósitrons 
(PET). (c) Cygnus Loop. (d) Radiação gama (ponto luminoso) de uma 
válvula de um reator. (Cortesia de (a) G.E. Medical Systems; (b) dr. 
Michael E. Casey, CTI PET Systems; (c) Nasa; (d) Professores Zhong 
He e David K. Wehe, Universidade de Michigan.) 


de pósitrons (PET, de positron emission tomography). O 
princípio é o mesmo que o da tomografia por raios X, 
explicado rapidamente na Seção 1.2. No entanto, em 
vez de utilizar uma fonte externa de energia de raios X, 
o paciente recebe um isótopo radioativo que emite pó- 
sitrons à medida que vai se desintegrando. Quando um 
pósitron colide com um elétron, ambos são destruídos e 
dois raios gama são emitidos. Eles são detectados, e uma 
imagem tomográfica é criada utilizando os princípios 
básicos da tomografia. A Figura 1.6(b) é uma amostra de 
uma sequência que constitui uma representação em 3-D 
do paciente. A imagem mostra um tumor no cérebro 
e outro no pulmão, facilmente visíveis como pequenos 
nódulos brancos. 


Uma estrela na constelação de Cygnus explodiu 
cerca de 15 mil anos atrás, gerando uma nuvem de gás 
estacionária e superaquecida (conhecida como o Cygnus 
Loop) que brilha em uma espetacular variedade de co- 
res. A Figura 1.6(c) mostra uma imagem do Cygnus Loop 
na faixa eletromagnética dos raios gama. Diferentemente 
dos exemplos apresentados nas figuras 1.6(a) e (b), essa 
imagem foi obtida utilizando a radiação natural do ob- 
jeto. Finalmente, a Figura 1.6(d) mostra uma imagem 
de radiação gama de uma válvula de um reator nuclear. 
Uma área de intensa radiação é vista no canto inferior 
esquerdo da imagem. 


1.3.2 Imagens formadas por raios X 


Os raios X estão entre as fontes mais antigas de ra- 
diação EM utilizada para a formação de imagens. A mais 
conhecida utilização dos raios X é no diagnóstico médico, 
mas eles também são amplamente utilizados na indústria 
e em outras áreas, como a astronomia. Os raios X para a 
formação de imagens médicas e industriais são gerados 
utilizando um tubo a vácuo com um catodo e um anodo. 
O catodo é aquecido, fazendo com que elétrons sejam 
liberados. Esses elétrons se movimentam em alta velo- 
cidade na direção do anodo positivamente carregado. 
Quando os elétrons atingem um núcleo, a energia é li- 
berada na forma de radiação de raios X. A energia (capa- 
cidade de penetração) dos raios X é controlada por uma 
tensão aplicada entre os elétrodos e por uma corrente no 
filamento do catodo. A Figura 1.7(a) mostra uma típica 
radiografia de tórax gerada pelo simples posicionamento 
do paciente entre uma fonte de raios X e um filme sen- 
sível à energia na faixa dos raios X. A intensidade dos 
raios X é modificada pela absorção à medida que passam 
através do paciente, e o filme é revelado pela energia re- 


Figura 1.7 Exemplos de imagens de raios X. (a) Radiografia de tó- 
rax. (b) Angiograma da aorta. (c) Tomografia computadorizada da ca- 
beça. (d) Placa de circuito impresso. (e) Cygnus Loop. (Cortesias de: (a) 
e (c) dr. David R. Pickens, Departamento de Radiologia e Ciências Ra- 
diológicas, Centro Médico da Universidade Vanderbilt, (b) dr. Thomas 
R. Gest, Divisão de Ciências Anatômicas, Faculdade de Medicina da 
Universidade de Michigan; (d) Joseph E. Pascente, Lixi, Inc.; e (e) Nasa.) 


sultante que o atinge, de forma similar à luz que revela 
um filme fotográfico. Na radiografia digital, as imagens 
digitais são obtidas por um dos dois métodos a seguir: (1) 
pela digitalização de filmes radiográficos; ou (2) fazendo 
com que os raios X que atravessam um paciente atinjam 
diretamente dispositivos (como uma tela fluorescente) 
que convertem raios X em luz. O sinal luminoso é, por 
sua vez, captado por um sistema de digitalização sensível 
à luz. Discutiremos a digitalização em mais detalhes nos 
capítulos 2 e 4. 

A angiografia é outra importante aplicação em uma 
área chamada de radiografia por realce de contraste. Esse 
procedimento é utilizado para obter imagens (chamadas 
de angiogramas) de vasos sanguíneos. Um cateter (um pe- 
queno tubo flexível) é inserido, por exemplo, em uma 
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artéria ou veia na virilha. O cateter é inserido no vaso 
sanguíneo até a área a ser analisada. Quando ele atinge 
o ponto de investigação, um meio de contraste de raios 
X é injetado pelo tubo. Isso aumenta o contraste dos va- 
sos sanguíneos e permite ao radiologista ver quaisquer 
irregularidades ou obstruções. A Figura 1.7(b) mostra 
um exemplo de um angiograma da aorta. O cateter pode 
ser visto inserido no vaso sanguíneo maior, localizado na 
parte inferior esquerda da figura. Observe o alto contras- 
te do vaso sanguíneo à medida que o meio de contraste 
flui na direção dos rins, que também são visíveis na ima- 
gem. Como veremos no Capítulo 2, a angiografia é uma 
importante área do processamento digital de imagens, na 
qual a técnica de subtração de imagens é utilizada para 
realçar ainda mais a imagem dos vasos sanguíneos que 
estão sendo estudados. 


Outra importante utilização dos raios X em imagens 
médicas é a tomografia axial computadorizada (CAT). 
Em razão de sua resolução e dos recursos tridimensio- 
nais, os tomógrafos axiais computadorizados revolucio- 
naram a medicina assim que foram disponibilizados, no 
início dos anos 1970. Como observado na Seção 1.2, cada 
imagem CAT é uma “fatia” perpendicular do paciente. 
Várias fatias são geradas à medida que o paciente é mo- 
vido em uma direção longitudinal. O conjunto dessas 
imagens constitui uma representação 3-D do interior do 
corpo, com a resolução longitudinal sendo proporcional 
ao número de imagens (fatias). A Figura 1.7(c) mostra 
uma imagem típica de uma fatia de uma tomografia axial 
computadorizada. 


Técnicas similares às que acabamos de discutir, mas 
em geral envolvendo raios X de alta energia, são apli- 
cáveis em processos industriais. A Figura 1.7(d) mostra 
uma imagem radiográfica de uma placa de circuito im- 
presso eletrônico. Imagens como essas, que represen- 
tam centenas de aplicações industriais dos raios X, são 
utilizadas para analisar circuitos impressos em busca de 
defeitos na fabricação, como falta de componentes ou 
trilhas interrompidas. Os aparelhos CAT industriais são 
úteis quando as peças podem ser atravessadas por raios 
X, como em montagens com plástico ou até mesmo em 
peças grandes, como motores de foguetes de combustível 
sólido. A Figura 1.7(e) mostra um exemplo de uma ima- 
gem de raios X na astronomia. Essa imagem é do Cygnus 
Loop da Figura 1.6(c), mas desta vez criada utilizando a 
banda de raios X. 


1.3.3 Imagens na banda ultravioleta 


As aplicações da “luz” ultravioleta são várias. Elas 
incluem litografia, inspeção industrial, microscopia, la- 
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sers, imagens biológicas e observações astronômicas. Ilus- 
tramos a formação de imagens nessa banda com exem- 
plos da microscopia e da astronomia. 


A luz ultravioleta é utilizada na microscopia de fluo- 
rescência, uma das áreas de mais rápido crescimento da 
microscopia. A fluorescência é um fenômeno descoberto 
na metade do século XIX, quando foi observado pela pri- 
meira vez que o mineral fluorita fluoresce quando a luz 
ultravioleta é direcionada a ele. A luz ultravioleta em si 
não é visível, mas, quando um fóton de radiação ultra- 
violeta colide com um elétron em um átomo de um ma- 
terial fluorescente, o nível de energia do elétron é eleva- 
do. Depois disso, o elétron excitado cai para um nível mais 
baixo e emite luz na forma de um fóton de energia 
mais baixa na região de luz visível (vermelha). A tarefa 
básica do microscópio de fluorescência é utilizar uma 
luz de excitação para irradiar um espécime preparado e 
depois separar a luz fluorescente irradiante, muito mais 
fraca, da luz de excitação, mais intensa. Dessa forma, só a 
luz de emissão atinge o olho ou outro detector. As áreas 
fluorescentes resultantes brilham contra um fundo es- 
curo com contraste suficiente para permitir a detecção. 
Quanto mais escuro for o fundo do material não fluores- 
cente, mais eficiente é o instrumento. 


A microscopia de fluorescência é um excelente mé- 
todo para analisar materiais que podem fluorescer, seja 
em sua forma natural (fluorescência primária) ou quan- 
do tratados com substâncias químicas capazes de fluo- 
rescer (fluorescência secundária). As figuras 1.8(a) e (b) 
mostram resultados típicos da microscopia de fluorescên- 
cia. A Figura 1.8(a) mostra uma imagem do milho nor- 
mal vista com um microscópio de fluorescência e a Figura 
1.8(b) mostra o milho infectado por uma doença de ce- 
reais, milho, grama, cebola e sorgo, que pode ser causada 
por qualquer uma das mais de 700 espécies de fungos 
parasitas. O fungo do milho é particularmente prejudicial 
porque o milho é uma das principais fontes de alimento 
do mundo. Como um exemplo adicional, a Figura 1.8(c) 
mostra uma imagem do Cygnus Loop, vista utilizando a 
região de alta energia da banda ultravioleta. 

13.4 Imagens na banda visível e na banda 


infravermelha 


Considerando que a banda visual do espectro ele- 
tromagnético é a mais rotineira em todas as nossas ati- 
vidades, não é de surpreender que a criação de imagens 
nessa banda supere em muito todas as outras em termos 
de variação de aplicações. A banda infravermelha costu- 
ma ser utilizada em conjunção com a banda visível na 


Figura 1.8 Exemplos de imagens na banda ultravioleta. (a) Milho 
normal. (b) Milho infectado por fungos. (c) Cygnus Loop. Cortesia de 
(a) e (b) dr. Michael W. Davidson, Universidade Estadual da Flórida, 
(c) Nasa. 


formação de imagens, de forma que agrupamos as bandas 
visível e infravermelha nesta seção para fins de exempli- 
ficação. Consideramos, na discussão seguinte, aplicações 
na microscopia ótica, astronomia, sensoriamento remoto, 
indústria e policiamento. 


A Figura 1.9 mostra vários exemplos de imagens 
obtidas com um microscópio ótico. Os exemplos variam 
de produtos farmacêuticos e microinspeção à caracteri- 
zação de materiais. Mesmo se considerarmos apenas a 
microscopia, as áreas de aplicação são numerosas demais 
para detalharmos aqui. Não é difícil definir os tipos de 
processos que podem ser aplicados a essas imagens, va- 
riando do realce a medições na imagem. 


Outra importante área de processamento visual é o 
sensoriamento remoto, que normalmente inclui várias ban- 
das nas regiões visual e infravermelha do espectro eletro- 
magnético. A Tabela 1.1 mostra as chamadas bandas temáticas 
no satélite Landsat, da Nasa. A principal função do Landsat 
é obter e transmitir imagens da Terra a partir do espaço para 
fins de monitoramento das condições ambientais do plane- 
ta. As bandas são expressas em termos de comprimento de 
onda, com 1 pm equivalendo a 10º m (analisaremos as re- 
giões de comprimento de onda do espectro eletromagnético 


f 


Figura 1.9 Exemplos de imagens da microscopia ótica. (a) Taxol 
(agente anticancerígeno), ampliado 250x. (b) Colesterol — 40x. (c) Mi- 
croprocessador — 60x. (d) Filme de óxido de níquel — 600x. (e) Super- 
fície de um CD de áudio — 1750x. (f) Supercondutor orgânico — 450x. 
(Cortesia do dr. Michael W. Davidson, Universidade Estadual da Flórida.) 


em mais detalhes no Capítulo 2). Veja as características e 
utilizações de cada banda na Tabela 1.1. 

Para ter uma ideia do poder desse tipo de técni- 
ca multiespectral de formação de imagens, veja a Figura 
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1.10, que mostra uma imagem para cada uma das bandas 
espectrais apresentadas na Tabela 1.1. A área mostrada 
nas imagens é Washington, D.C., incluindo prédios, es- 
tradas e ruas, vegetação e um rio (o Potomac) que cruza 
a cidade. Imagens de centros populacionais são utilizadas 
rotineiramente (depois de algum tempo) para analisar o 
crescimento populacional e os padrões de deslocamento, 
além de poluição e outros fatores prejudiciais ao ambien- 
te. As diferenças entre as características de uma imagem 
visual e infravermelha são bastante evidentes nessas ima- 
gens. Observe, por exemplo, como o rio é bem definido 
em relação aos arredores nas bandas 4 e 5. 


A observação e previsão do tempo também represen- 
tam importantes aplicações da imagem multiespectral dos 
satélites. Por exemplo, a Figura 1.11 é uma imagem do fu- 
racão Katrina, um dos furacões mais devastadores dos últi- 
mos tempos no hemisfério ocidental. A imagem foi tirada 
por um satélite da Administração Oceanográfica e Atmos- 
férica Nacional (Noaa, National Oceanographic and Atmos- 
pheric Administration) utilizando sensores nas bandas visí- 
vel e infravermelha. O olho do furacão é claramente visível 
na imagem. 


As figuras 1.12 e 1.13 mostram uma aplicação da 
aquisição de imagens na banda infravermelha. Essas ima- 
gens fazem parte do conjunto de dados Nighttime Lights 
of the World, que fornece um inventário global de as- 
sentamentos humanos. As imagens foram geradas pelo 
sistema de imagem por banda infravermelha montado 
em um satélite do Programa de Satélites Meteorológicos 
e de Defesa (DMSP, Defense Meteorological Satellite Pro- 
gram) da Noaa. O sistema de imagem por banda infraver- 
melha opera na banda 10,0 a 13,4 pm e tem a capacidade 


Figura 1.10 
(Cortesia da Nasa.) 


Imagens da área de Washington, D.C., vistas pelo satélite Landsat. Os números se referem às bandas temáticas da Tabela 1.1. 
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Tabela 1.1 Bandas temáticas no satélite Landsat, da Nasa. 


Número da Comprimento de 
banda Nome onda (um) Características e utilizações 

1 Azul visível 0,45-0,52 Máxima penetração na água 
2 Verde visível 0,52-0,60 Bom para a mensuração do vigor de plantas 
3 Vermelho visível 0,63-0,69 Discriminação de vegetação 
4 Infravermelho próximo 0,76-0,90 Mapeamento de biomassa e linha costeira 
5 Infravermelho médio 1,95-1,75 Conteúdo de umidade do solo e vegetação 
6 Infravermelho termal 10,4-12,5 Umidade do solo, mapeamento térmico 
7 Infravermelho médio 2,08-2,35 Mapeamento mineral 


única de observar fontes fracas de emissões visíveis de drado preto no quadrante superior direito da imagem é 
infravermelho próximo presentes na superfície da Terra, um exemplo de componente faltando). 


incluindo cidades, vilas, aldeias, chamas de gás e incên- A Figura 1.14(b) é a imagem de uma cartela de 
dios. Mesmo sem treinamento formal em processamento comprimidos. O objetivo aqui é fazer com que uma má- 
de imagens, não é difícil imaginar a criação de um pro- quina inspecione as cartelas em busca de comprimidos 


grama de computador que utilizaria essas imagens para 
estimar a porcentagem da energia elétrica total utilizada 
pelas várias regiões do mundo. 


Uma importante área da formação de imagens na 
banda visível é a inspeção visual automatizada de pro- 
dutos manufaturados. A Figura 1.14 apresenta alguns 
exemplos. A Figura 1.14(a) mostra uma placa controla- 
dora de um drive de CD-ROM. Uma típica tarefa de pro- 
cessamento de imagens com produtos como esse consiste 
em inspecioná-los em busca de partes faltantes (o qua- 


Figura 1.12 Imagens do continente americano obtidas por um saté- 
Figura 1.11 Imagem de satélite do Furacão Katrina tirada no dia 29 lite na banda infravermelha. O pequeno mapa cinza foi incluído como 
de agosto de 2005. (Cortesia da Noaa.) referência. (Cortesia da Noaa.) 


4 T 


Figura 1.13 Imagens das áreas mais populosas do mundo, obtidas 
por um satélite na banda infravermelha. O pequeno mapa cinza foi 
incluído como referência. (Cortesia da Noaa.) 


a 


2 


Figura 1.14 Exemplos de alguns produtos manufaturados frequen- 
temente verificados por meio de técnicas de processamento digital 
de imagens. (a) Circuito impresso de um controlador de CD-ROM. (b) 
Cartela de comprimidos. (c) Garrafas. (d) Bolhas de ar em um produ- 
to de plástico transparente. (e) Cereais. (f) Imagem de um implante 
intraocular. (Figura (f) cortesia de Pete Sites, Perceptics Corporation.) 
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faltando. A Figura 1.14(c) mostra uma aplicação na qual 
o processamento de imagens é utilizado para procurar 
garrafas que não estão cheias até um nível adequado. A 
Figura 1.14(d) mostra uma peça de plástico transparen- 
te com um número inaceitável de bolhas de ar. Detec- 
tar irregularidades como essas é de extrema importân- 
cia na inspeção industrial, que inclui outros produtos, 
como madeira e tecido. A Figura 1.14(e) apresenta um 
lote de cereais durante a inspeção por coloração e por 
presença de anormalidades, como flocos queimados. 
Por fim, a Figura 1.14(f) traz a imagem de um implan- 
te intraocular (substituindo a lente do olho humano). 
Uma técnica de iluminação de “luz estruturada” foi uti- 
lizada para destaque, visando à detecção mais fácil de 
deformações no centro da lente plana. As marcações à 
1 hora e às 5 horas mostram danos feitos com pinça. 
Os outros pequenos pontos presentes na imagem são, 
na maior parte, fragmentos. O objetivo desse tipo de 
inspeção é encontrar automaticamente implantes da- 
nificados ou incorretamente manufaturados, antes de 
serem embalados. 


Uma última ilustração do processamento de ima- 
gens no espectro de luz visível é representada pela Figura 
1.15. A Figura 1.15(a) mostra a impressão digital de um 
polegar. Imagens de impressões digitais são rotineiramente 


x 


-e 


Figura 1.15 Exemplos adicionais de imagens no espectro de luz vi- 
sível. (a) Impressão digital do polegar. (b) Nota de dinheiro. (c) e (d) 
Leitura automática de placas de identificação de veículos. (Figura (a) 
cortesia do National Institute of Standards and Technology. Figuras (c) 
e (d) cortesia do dr. Juan Herrera, Perceptics Corporation.) 
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processadas por computador, para realçá-las ou para en- 
contrar características que auxiliem na busca automati- 
zada em um banco de dados por similaridade. A Figura 
1.15(b) mostra a imagem de uma nota de dinheiro. Apli- 
cações do processamento digital de imagens nessa área 
incluem a contagem e a leitura automatizada do núme- 
ro de série para rastreamento e identificação das notas, 
considerando a área de aplicação da lei (ou segurança 
pública). As duas imagens de veículos mostradas nas fi- 
guras 1.15(c) e (d) são exemplos de leitura automática de 
placas de identificação de veículos. Os retângulos claros 
indicam a área na qual o sistema de imagem detectou a 
placa. Os retângulos escuros mostram os resultados da 
leitura automática do conteúdo da placa pelo sistema. A 
leitura de placas de veículos e outras aplicações de reco- 
nhecimento de caracteres são utilizadas extensivamente 
para o monitoramento e o controle de tráfego. 


13.5 Imagens na banda de micro-ondas 

A principal aplicação da obtenção de imagens na 
banda de micro-ondas é o radar. A característica singular 
da aquisição de imagens por radar é sua capacidade de 
coletar dados em praticamente qualquer região a qual- 
quer momento, independentemente do clima ou das 
condições de iluminação do ambiente. Algumas ondas 
de radar podem penetrar nuvens e, em certas condições, 
também podem ver através de vegetação, gelo e areia 
seca. Em muitos casos, o radar é a única forma de explo- 
rar regiões inacessíveis da superfície da Terra. Um sistema 
de imagem por radar funciona como uma câmera equi- 
pada com flash que fornece a própria iluminação (pulsos 
de micro-ondas) para iluminar uma área no solo e obter 
uma imagem instantânea. Em vez de uma lente de câme- 
ra, o radar utiliza uma antena e o processamento compu- 
tacional para gravar suas imagens. Em uma imagem de 
radar, é possível ver apenas a energia na faixa de micro- 
-ondas que foi refletida de volta para a antena do radar. 


A Figura 1.16 mostra uma imagem obtida com um 
radar espacial cobrindo uma área montanhosa e aciden- 
tada do sudeste do Tibete, cerca de 90 quilômetros a leste 
da cidade de Lhasa. No canto inferior direito, é possível 
ver o extenso vale do Rio Lhasa, onde vivem fazendeiros 
e criadores de iaques tibetanos e que inclui a aldeia de 
Menba. As montanhas dessa área chegam a atingir cerca 
de 5.800 metros acima do nível do mar, enquanto o vale 
está a cerca de 4.300 metros acima do nível do mar. Ob- 
serve a clareza e os detalhes da imagem, livres de nuvens 
ou outras condições atmosféricas que normalmente in- 
terferem nas imagens no espectro de luz visível. 


Figura 1.16 
de um radar espacial. (Cortesia da Nasa.) 


Imagem das montanhas no sudeste do Tibete obtidas 


1.3.6 Imagens na banda de rádio 


Como no caso da aquisição de imagens no outro ex- 
tremo do espectro (raios gama), as principais aplicações 
das imagens obtidas na banda de rádio situam-se na me- 
dicina e na astronomia. Na medicina, ondas de rádio são 
utilizadas em imagens por ressonância magnética (MRI, 
de magnetic resonance imaging). Essa técnica consiste em 
posicionar um paciente em um poderoso ímã e fazer com 
que ondas de rádio passem através de seu corpo em pul- 
sos curtos. Cada pulso de ondas de rádio emitido pro- 
voca um pulso de resposta correspondente, que é emi- 
tido pelos tecidos do paciente. O local onde esses sinais 
se originam e sua intensidade são determinados por um 
computador, que produz uma imagem bidimensional de 
uma seção do paciente. A MRI pode produzir imagens em 
qualquer plano. A Figura 1.17 mostra imagens de MRI de 
um joelho e da coluna vertebral de um ser humano. 


Figura 1.17 


Imagens de MRI de partes do corpo humano: (a) joelho 
e (b) coluna vertebral. (Cortesias de: (a) dr. Thomas R. Gest, Divisão de 
Ciências Anatômicas, Faculdade de Medicina da Universidade de Mi- 
chigan e (b) David R. Pickens, Departamento de Radiologia e Ciências 
Radiológicas, Centro Médico da Universidade Vanderbilt.) 


A última imagem à direita na Figura 1.18 mostra 
uma imagem de um “pulsar” gerado por uma estrela de 
nêutrons (Crab Pulsar) obtida na banda de rádio. Também 
mostramos, para uma comparação interessante, imagens 
da mesma região obtidas na maioria das bandas discuti- 
das até aqui. Observe que cada imagem dá uma “visão” 
totalmente diferente do pulsar. 


1.3.7 Exemplos nos quais outras modalidades de 
imagem são utilizadas 


Apesar de a obtenção de imagens no espectro ele- 
tromagnético ser de longe a mais utilizada, há várias 
outras modalidades também importantes. Mais especifi- 
camente, discutiremos nesta seção a imagem acústica, a 
microscopia eletrônica e a imagem sintética (gerada por 
computador). 


A formação de imagem utilizando “sons” encontra 
aplicação na exploração geológica, na indústria e na me- 
dicina. Aplicações geológicas utilizam o som no extremo 
inferior do espectro sonoro (centenas de Hz), ao passo 
que a obtenção de imagens em outras áreas utiliza o ul- 
trassom (milhões de Hz). As aplicações comerciais mais 
importantes do processamento de imagens na geologia 
encontram-se na exploração de minérios e petróleo. Para 
a aquisição de imagens a partir da superfície do solo, uma 
das principais abordagens consiste em utilizar um grande 
caminhão com uma grande placa de aço plana. A placa é 
pressionada no chão pelo caminhão, que sofre vibração 
por um espectro de frequência de até 100 Hz. A intensi- 
dade e a velocidade das ondas sonoras que retornam são 
definidas pela composição do solo abaixo da superfície. 
Esses dados são analisados por computador e as imagens 
são geradas a partir dos resultados dessa análise. 


Para a aquisição marinha, a fonte de energia nor- 
malmente consiste em duas espingardas de ar compri- 
mido rebocadas por um navio. As ondas sonoras refle- 
tidas são detectadas por hidrofones instalados em cabos 
rebocados atrás do navio, parados no fundo do mar, ou 


Gama Raios X 


Figura 1.18 
magnético. (Cortesia da Nasa.) 


Ótico 
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suspensos por boias (cabos verticais). As duas espingar- 
das de ar comprimido são alternadamente pressurizadas 
até aproximadamente 2.000 psi e, então, acionadas. O 
movimento constante do navio proporciona uma direção 
transversal de movimento que, com as ondas sonoras re- 
fletidas, é utilizado para gerar um mapa 3-D da composi- 
ção da Terra abaixo do fundo do oceano. 


A Figura 1.19 mostra uma imagem da seção trans- 
versal de um conhecido modelo tridimensional com o qual 
o desempenho de algoritmos de formação de imagem sís- 
mica é testado. A seta indica um bolsão de hidrocarbonetos 
(petróleo e/ou gás). Esse alvo é mais claro do que as cama- 
das ao redor porque a mudança de densidade nessa região 
é maior. Os intérpretes sísmicos procuram esses “pontos 
claros” para encontrar petróleo e gás. As camadas acima 
também são claras, mas o brilho não varia com tanta in- 
tensidade entre elas. Muitos algoritmos de reconstrução de 
imagem sísmica apresentam dificuldades na visualização 
desse alvo em virtude das outras falhas acima dele. 


Apesar de a produção de imagens por ultrassom ser 
utilizada rotineiramente na manufatura, as aplicações 
mais conhecidas dessa técnica estão na medicina, espe- 
cialmente na obstetrícia, em que bebês em gestação (fe- 
tos) são visualizados para verificar seu desenvolvimento 


Figura 1.19 
ção de imagem sísmica. A seta indica um bolsão de hidrocarbonetos 
(petróleo e/ou gás). (Cortesia do dr. Curtis Ober, Sandia National La- 
boratories.) 


Imagem de seção transversal de um modelo de forma- 


Infravermelho Rádio 


Imagens de um “pulsar” gerado por uma estrela de nêutrons (Crab Pulsar) (no centro de cada imagem) cobrindo o espectro eletro- 
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e saúde. Um produto secundário desse exame consiste na 
descoberta do sexo do bebê. Imagens de ultrassom são 
geradas utilizando o procedimento básico seguinte: 


1. O sistema de ultrassom (um computador, uma sonda 
de ultrassom consistindo em uma fonte, um recep- 
tor e um monitor) transmite pulsos sonoros de alta 
frequência (1 a 5 MHz) ao corpo. 


2. As ondas sonoras percorrem o corpo e atingem uma 
fronteira entre tecidos (por exemplo, entre fluido e 
tecido mole ou entre tecido mole e osso). Algumas 
das ondas sonoras são refletidas de volta à sonda, ao 
passo que outras continuam o percurso até atingir 
outra fronteira e serem refletidas. 


3. As ondas refletidas são captadas pela sonda e trans- 
mitidas ao computador. 


4. A máquina calcula a distância da sonda até as fron- 
teiras de tecido ou órgãos utilizando a velocidade do 
som no tecido (1.540 m/s) e o tempo de retorno de 
cada eco. 


5. O sistema exibe as distâncias e as intensidades dos 
ecos na tela, formando uma imagem bidimensional. 


Em uma imagem de ultrassom típica, milhões de 
pulsos e ecos são enviados e recebidos a cada segundo. A 
sonda pode ser deslocada ao longo da superfície do corpo 
e inclinada para obter várias vistas. A Figura 1.20 mostra 
diversos exemplos. 


Continuaremos a discussão sobre as modalidades de 
imagem com alguns exemplos de microscopia eletrônica. 
Os microscópios eletrônicos funcionam como seus corres- 
pondentes óticos, mas utilizam um feixe concentrado de 
elétrons em vez de luz para criar a imagem de uma amos- 


Figura 1.20 Exemplos de imagens por ultrassom. (a) Feto. (b) Outra 
vista de um feto. (c) Tireoides. (d) Camadas musculares mostrando uma 
lesão. (Cortesia da Siemens Medical Systems, Inc., Ultrasound Group.) 


tra. A operação dos microscópios eletrônicos envolve os 
seguintes passos básicos: um fluxo de elétrons é produzi- 
do por uma fonte de elétrons e acelerado na direção do 
espécime utilizando um potencial elétrico positivo. Esse 
fluxo é confinado e focado por meio de aberturas de me- 
tale lentes magnéticas para formar um feixe fino e mono- 
cromático. Esse feixe é focado na amostra utilizando uma 
lente magnética. Interações ocorrem dentro da amostra 
irradiada, afetando o feixe de elétrons. Essas interações e 
efeitos são detectados e transformados em uma imagem, 
de modo muito similar à luz que é refletida de objetos 
em uma cena ou absorvida por eles. Esses passos bási- 
cos são executados em todos os microscópios eletrônicos. 


Um microscópio eletrônico de transmissão (TEM, de 
transmission electron telescope) funciona de forma bastante 
parecida com um projetor de slides. Um projetor trans- 
mite um feixe de luz através de um slide e, à medida que 
a luz o atravessa, é modulada pelo conteúdo daquele sli- 
de. Esse feixe transmitido é, então, projetado na tela de 
projeção, formando uma imagem do slide ampliada. Os 
TEMs funcionam da mesma forma, mas emitem um feixe 
de elétrons através de uma amostra (como se fosse o sli- 
de). A fração do feixe que é transmitida através da amos- 
tra é projetada em uma tela fluorescente. A interação dos 
elétrons com o material fluorescente produz luz e, assim, 
uma imagem visível. Um microscópio eletrônico de varredura 
(SEM, de scanning electron telescope), por outro lado, es- 
caneia o feixe de elétrons e registra a interação do feixe 
e da amostra em cada ponto. Isso produz um ponto em 
uma tela fluorescente. Uma imagem completa é formada 
pela varredura do feixe pela amostra, de forma bastante 
similar a uma câmera de TV. Os elétrons interagem com 
uma tela fluorescente e produzem luz. Os SEMs são apro- 
priados para amostras volumosas, ao passo que os TEMs 
requerem amostras muito finas. 


Os microscópios eletrônicos são capazes de gerar 
grandes ampliações. Apesar de a microscopia ótica ser 
limitada a magnificações da ordem de 1.000x, os micros- 
cópios eletrônicos podem atingir uma magnificação de 
10.000x ou mais. A Figura 1.21 mostra duas imagens SEM 
de amostras com defeito causado por sobrecarga térmica. 


Concluímos esta discussão das modalidades de 
formação de imagem analisando brevemente as ima- 
gens que não são obtidas de objetos físicos. Em vez 
disso, elas são geradas por computador. Os fractais são 
excelentes exemplos de imagens geradas por compu- 
tador (Lu [1997]). Basicamente, um fractal não passa 
de uma reprodução interativa de um padrão básico de 
acordo com algumas regras matemáticas. Por exemplo, 


Figura 1.21 


(a) Inagem SEM (250x) de um filamento de tungstênio 
após uma falha térmica (observe os pedaços fragmentados no canto 
inferior esquerdo). (b) Imagem SEM (2.500x) de um circuito integrado 
danificado. As fibras brancas são óxidos resultantes da destruição tér- 
mica. (Cortesias de: (a) Michael Shaffer, Departamento de Ciências 
Geológicas, Universidade do Oregon, Eugene; (b) dr. J. M. Hudak, 
Universidade McMaster, Hamilton, Ontário, Canadá.) 


a repetição de padrões é uma das formas mais simples 
de gerar uma imagem fractal. Um quadrado pode ser 
subdividido em quatro sub-regiões quadradas, e cada 
uma pode ser subdividida em quatro regiões quadradas 
menores e assim por diante. Dependendo da complexi- 
dade das regras de divisão de cada subquadrado, algumas 
belas imagens de padrões repetitivos podem ser gera- 
das com esse método. Obviamente, a geometria pode ser 
arbitrária. Por exemplo, a imagem fractal pode ser desen- 
volvida de forma radial a partir de um ponto central. A Fi- 
gura 1.22(a) mostra um fractal criado dessa forma. A Figura 
1.22(b) mostra um outro fractal (um “cenário lunar”) 
que proporciona uma analogia interessante com as ima- 
gens espaciais utilizadas como ilustrações em algumas 
das seções anteriores. 


Figura 1.22 


(a) e (b) Imagens fractais. (c) e (d) Imagens geradas a 
partir de modelos computacionais 3-D dos objetos mostrados. (Corte- 
sia de: (a) e (b) Melissa D. Binde, Swarthmore College; (c) e (d) Nasa.) 
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Imagens fractais aproximam-se de formulações ar- 
tísticas e matemáticas do “crescimento” de elementos de 
subimagem de acordo com um conjunto de regras. Algu- 
mas vezes, são úteis na formação de texturas aleatórias. 
Uma abordagem mais estruturada para a geração de ima- 
gens por computador reside na modelagem 3-D. Essa é 
uma área que proporciona importante interseção entre 
o processamento de imagens e a computação gráfica e 
constitui a base para muitos sistemas de visualização 3-D 
(por exemplo, simuladores de voo). As figuras 1.22(c) e 
(d) mostram exemplos de imagens geradas por compu- 
tador. Como o objeto original é criado em 3-D, as ima- 
gens podem ser geradas de qualquer perspectiva a partir 
de projeções planas do volume 3-D. Imagens desse tipo 
podem ser utilizadas para o treinamento médico e para 
uma série de outras aplicações, como nas investigações 
criminais em laboratório e em efeitos especiais. 


1.4 Passos fundamentais em 
processamento digital de imagens 


É útil dividir o material que será abordado nos capí- 
tulos a seguir nas duas categorias mais amplas definidas 
na Seção 1.1: métodos cuja entrada e saída são imagens 
e métodos cujas entradas podem ser imagens, mas cujas 
saídas são atributos extraídos dessas imagens. Essa orga- 
nização é resumida na Figura 1.23. O diagrama não signi- 
fica que todo processo se aplique a uma imagem. Em vez 
disso, a intenção é transmitir uma ideia de todas as meto- 
dologias que podem ser aplicadas a imagens para diferen- 
tes propósitos e, possivelmente, com diferentes objetivos. 
Esta seção pode ser vista como uma breve visão geral do 
material exposto no restante deste livro. 

A aquisição de imagens é o primeiro processo da Fi- 
gura 1.23. A Seção 1.3 deu uma ideia da origem das ima- 
gens digitais. Esse tópico é analisado muito mais detalha- 
damente no Capítulo 2, no qual também apresentaremos 
uma série de conceitos básicos de imagens digitais utili- 
zados ao longo do livro. Observe que a aquisição pode 
ser tão simples quanto receber uma imagem que já esteja 
em formato digital. Em geral, o estágio de aquisição de 
imagens envolve um pré-processamento, por exemplo, o 
redimensionamento de imagens. 


O realce de imagens é o processo de manipular uma 
imagem de forma que o resultado seja mais adequado do 
que o original para uma aplicação específica. A palavra 
específica é importante neste contexto, porque estabelece 
desde o início que as técnicas de realce são orientadas de 
acordo com o problema. Dessa forma, por exemplo, um 


16 Processamento digital de imagens 


As saídas desses processos geralmente são imagens 
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As saídas desses processos geralmente são atributos de imagem 


Figura 1.23 Passos fundamentais em processamento digital de imagens. Os capítulos nos quadros indicam onde o assunto é abordado no livro. 


método bastante útil para realçar imagens radiográficas 
pode não ser a melhor abordagem para realçar imagens 
de satélite capturadas na banda infravermelha do espec- 
tro eletromagnético. 


Não existe uma “teoria” geral de realce de imagens. 
Quando uma imagem é processada para a interpretação 
visual, o observador é o juiz final do bom funcionamen- 
to de um método particular. As técnicas de realce são tão 
variadas e utilizam tantas abordagens de processamento 
de imagens diferentes que é difícil agrupar um número 
significativo de técnicas apropriadas de realce de ima- 
gens em um único capítulo sem uma extensa explicação 
prévia. Por essa razão, e também porque os iniciantes 
na área de processamento de imagens geralmente con- 
sideram as aplicações de realce visualmente interessan- 
tes, agradáveis e de compreensão relativamente simples, 
utilizamos o realce de imagens como exemplos ao apre- 
sentar novos conceitos em algumas partes do Capítulo 2 
e nos capítulos 3 e 4. O conteúdo dos dois últimos capí- 
tulos inclui vários métodos tradicionalmente utilizados 
para o realce de imagens. Assim, utilizando exemplos 
de realce para apresentar novos métodos de processa- 
mento de imagens explicados nesses primeiros capítu- 
los, não apenas nos poupa de ter um capítulo adicional 
no livro dedicado exclusivamente ao realce de imagens, 
como também, e o mais importante, constitui uma abor- 
dagem eficaz para apresentar aos iniciantes os detalhes 


de técnicas de processamento logo no início do livro. No 
entanto, como veremos ao longo do livro, o material de- 
senvolvido nesses capítulos se aplica a uma classe muito 
mais ampla de problemas do que simplesmente o realce 
de imagens. 


A restauração de imagens também é uma área que lida 
com a melhora visual de uma imagem. No entanto, dife- 
rentemente do realce, que é subjetivo, a restauração de 
imagens é objetiva, no sentido de que as técnicas de res- 
tauração tendem a se basear em modelos matemáticos ou 
probabilísticos de degradação de imagens. O realce, por 
outro lado, baseia-se em preferências humanas subjetivas 
em relação ao que constitui uma imagem “boa”. 


O processamento de imagens coloridas é uma área que 
tem ganhado importância em virtude do aumento signi- 
ficativo da utilização de imagens digitais na Internet. O 
Capítulo 6 aborda uma série de conceitos fundamentais 
de processamento básico de cores e modelos de cores em 
um ambiente digital. A cor também é utilizada em capí- 
tulos posteriores como base para a extração de caracteris- 
ticas de interesse em uma imagem. 


As wavelets constituem os fundamentos para a re- 
presentação de imagens em vários níveis de resolução. 
Em particular, esse material é utilizado neste livro para a 
compressão de dados de imagens e para a representação 
piramidal, na qual as imagens são subdivididas sucessiva- 
mente em regiões menores. 


A compressão, como o nome sugere, lida com as téc- 
nicas de redução do armazenamento necessário para sal- 
var uma imagem, ou a largura de banda necessária para 
transmiti-la. Apesar de a tecnologia de armazenamento ter 
avançado significativamente ao longo da última década, o 
mesmo não pode ser dito em relação à capacidade de trans- 
missão. Isso se aplica particularmente nas utilizações da 
Internet, que é caracterizada por um expressivo conteúdo 
visual. A compressão de imagens é bem conhecida (talvez 
inadvertidamente) pela maioria dos usuários de compu- 
tadores na forma de extensões de arquivos de imagem, 
como a extensão .jpg, utilizada no padrão de compressão 
de imagens JPEG (Joint Photographic Experts Group). 


O processamento morfológico lida com ferramentas 
para a extração de componentes de imagens úteis na 
representação e descrição da forma. O material contido 
neste capítulo dá início a uma transição de processos 
nos quais as saídas são imagens para os processos nos 
quais as saídas passam a ser atributos de imagens, como 
indicado na Seção 1.1. 


Os procedimentos de segmentação dividem uma ima- 
gem em suas partes ou objetos constituintes. Em geral, a 
segmentação autônoma é uma das tarefas mais difíceis do 
processamento digital de imagens. Um procedimento de 
segmentação de imagens bem-sucedido aumenta as chan- 
ces de sucesso na solução de problemas que requerem que 
os objetos sejam individualmente identificados. Por outro 
lado, algoritmos de segmentação fracos ou inconsistentes 
quase sempre asseguram falha no processamento. Em ge- 
ral, quanto mais precisa for a segmentação, maiores irão 
as chances de sucesso no reconhecimento dos objetos. 


A representação e a descrição quase sempre partem do 
resultado de um estágio de segmentação, que normal- 
mente são dados primários em forma de pixels, corres- 
pondendo tanto à fronteira de uma região (por exemplo, 
o conjunto de pixels que separa uma região da imagem 
de outra) como a todos os pontos dentro dela. De qual- 
quer forma, em ambos os casos é necessário converter 
os dados a uma forma adequada para o processamento 
computacional. A primeira decisão que deve ser tomada 
é se os dados devem ser representados como fronteiras ou 
como regiões completas. A representação por fronteira é 
apropriada quando o interesse se concentra nas caracte- 
rísticas externas de forma, como vértices e pontos de in- 
flexão. A representação por região é apropriada quando 
o foco é direcionado às propriedades internas do objeto, 
como a textura ou a forma do esqueleto. Em algumas 
aplicações, essas representações se complementam. Esco- 
lher uma representação constitui apenas uma parte da 
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solução para transformar dados primários em uma forma 
apropriada para o subsequente processamento computa- 
cional. Um método também deve ser especificado para 
descrever os dados de modo que as características de inte- 
resse sejam enfatizadas. O processo de descrição, também 
chamado de seleção de características, lida com a extração de 
atributos que resultam em alguma informação quantita- 
tiva de interesse ou que possam ser utilizados para dife- 
renciar uma classe de objetos de outra. 


O reconhecimento é o processo que atribui um rótulo 
(por exemplo, “veículo”) a um objeto com base em seus 
descritores. Como detalhamos na Seção 1.1, concluímos 
nossa abordagem do processamento digital de imagens 
com o desenvolvimento de métodos para o reconheci- 
mento de objetos individuais. 


Até agora não mencionamos nada a respeito da ne- 
cessidade de conhecimento prévio ou da interação entre a 
base de conhecimento e os módulos de processamento apre- 
sentados na Figura 1.23. O conhecimento sobre o domí- 
nio do problema está codificado em um sistema de pro- 
cessamento de imagens na forma de uma base (banco de 
dados) de conhecimento. Esse conhecimento pode ser tão 
simples quanto o detalhamento de regiões de uma ima- 
gem na qual se sabe que a informação de interesse pode 
ser localizada, limitando, dessa forma, a busca que preci- 
sa ser conduzida na procura daquela informação. A base 
de conhecimento também pode ser bastante complexa, 
como, por exemplo, uma lista inter-relacionada de todos 
os principais defeitos possíveis em um problema de ins- 
peção de materiais ou um banco de imagens contendo 
imagens de satélite de alta resolução de uma região em co- 
nexão com aplicações de detecção de mudanças. Além de 
orientar a operação de cada módulo de processamento, a 
base de conhecimento também controla a interação entre 
os módulos. Essa distinção é feita na Figura 1.23 pela uti- 
lização de setas bidirecionais entre os módulos de proces- 
samento e a base de conhecimento, ao contrário das setas 
unidirecionais que ligam os módulos de processamento. 


Embora ainda não tenhamos discutido a exibição de 
imagens explicitamente neste ponto, é importante ter em 
mente que a visualização dos resultados do processamen- 
to de imagens pode ocorrer na saída de qualquer estágio 
da Figura 1.23. Também observamos que nem todas as 
aplicações de processamento de imagens requerem a com- 
plexidade das interações representadas na Figura 1.23. 
Na verdade, nem todos esses módulos são necessários em 
muitos casos. Por exemplo, o realce de imagens para a inter- 
pretação visual humana raramente requer a utilização dos 
outros estágios da Figura 1.23. Contudo, em geral, à medi- 
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da que a complexidade de uma tarefa envolvendo o pro- 
cessamento de imagens aumenta, o número de processos 
necessários para solucionar o problema também aumenta. 


1.5 Componentes de um sistema de 
processamento de imagens 


Em meados da década de 1980, diversos modelos de 
sistemas de processamento de imagens vendidos ao redor 
do mundo consistiam em dispositivos periféricos bastan- 
te substanciais, que se conectavam a computadores host 
igualmente substanciais. No final da década de 1980 e no 
começo da década de 1990, o mercado se transferiu para 
o hardware de processamento de imagens na forma de 
uma placa única, desenvolvida para ser compatível com 
os padrões de barramentos da indústria, e para se encaixar 
em gabinetes de estações de trabalho e de computadores 
pessoais. Além de reduzir os custos, essa transição também 
serviu como um catalisador para um número significativo 
de novas empresas especializadas no desenvolvimento de 
software especificamente para o processamento de imagens. 


Apesar de os sistemas de processamento de imagens 
em grande escala ainda serem vendidos para grandes 
aplicações envolvendo imagens, como o processamento 


de imagens de satélite, a tendência continua sendo a mi- 
niaturização e a combinação de pequenos computadores 
de uso geral com hardware para o processamento de ima- 
gens. A Figura 1.24 mostra os componentes básicos que 
constituem um sistema de uso geral típico para o processa- 
mento digital de imagens. A função de cada componen- 
te é discutida nos parágrafos a seguir, começando com o 
sensoriamento de imagens. 


No que se refere ao sensoriamento, dois elementos 
são necessários para a aquisição de imagens digitais. O 
primeiro é um dispositivo físico sensível à energia irra- 
diada pelo objeto cuja imagem desejamos capturar. O 
segundo, chamado de digitalizador, é um dispositivo uti- 
lizado para converter a saída do dispositivo físico de sen- 
soriamento em formato digital. Por exemplo, em uma 
filmadora digital, os sensores produzem uma saída elé- 
trica proporcional à intensidade da luz. O digitalizador 
converte essa saída em dados digitais. Esses tópicos serão 
abordados no Capítulo 2. 


O hardware especializado em processamento de imagens 
normalmente consiste no digitalizador que acabamos de 
mencionar, além de um hardware capaz de desempenhar 
outras operações primárias, como uma unidade lógica e 
aritmética (ALU, de arithmetic logic unit), que realiza ope- 
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Figura 1.24 Componentes de um sistema de processamento de imagens de uso geral. 


rações aritméticas e lógicas em paralelo em toda a ima- 
gem. Um exemplo de como uma ALU pode ser utilizada 
está no cálculo da média de uma imagem à medida que 
ela é digitalizada, com o propósito de redução de ruídos. 
Esse tipo de hardware algumas vezes é chamado de sub- 
sistema de front-end e sua característica mais peculiar é a 
velocidade. Em outras palavras, essa unidade realiza fun- 
ções que requerem um rápido processamento de dados 
(como, por exemplo, a digitalização e o cálculo da média 
de imagens de vídeo a 30 quadros/s) que um computador 
comum não pode processar. 


O computador em um sistema de processamento de 
imagens é um computador de uso geral, que pode variar 
de um computador pessoal a um supercomputador. Em 
aplicações especiais, algumas vezes computadores espe- 
cializados são utilizados para atingir o nível necessário de 
desempenho, mas o nosso interesse aqui está relaciona- 
do a sistemas de processamento de imagens de uso geral. 
Nesses sistemas, praticamente qualquer computador pes- 
soal bem equipado é suficiente para as tarefas de proces- 
samento de imagens off-line. 


O software para o processamento de imagens con- 
siste em módulos especializados que realizam tarefas es- 
pecíficas. Um bom pacote computacional também inclui 
a possibilidade de o usuário escrever códigos que, no mí- 
nimo, utilizem os módulos especializados. Os pacotes de 
aplicativos mais sofisticados permitem a integração des- 
ses módulos e dos comandos gerais de software a partir 
de pelo menos uma linguagem computacional. 


A capacidade de armazenamento em massa é indispen- 
sável em aplicações de processamento de imagens. Uma 
imagem do tamanho de 1.024 x 1.024 pixels, na qual a 
intensidade de cada pixel requer 8 bits, necessita de um es- 
paço de armazenamento de 1 megabyte, se a imagem não 
for comprimida. Ao lidar com milhares, ou até milhões, 
de imagens, o armazenamento adequado em um sistema 
de processamento de imagens pode ser um desafio. O ar- 
mazenamento digital para aplicações de processamento de 
imagens se divide em três categorias principais: (1) arma- 
zenamento de curto prazo para utilização durante o pro- 
cessamento, (2) armazenamento on-line para acesso rela- 
tivamente rápido e (3) armazenamento em arquivo para 
acesso com pouca frequência. O armazenamento é medido 
em bytes (8 bits), Kbytes (mil bytes), Mbytes (um milhão 
de bytes), Gbytes (de “giga”, ou um bilhão de bytes) e 
Tbytes (de “tera”, ou um trilhão de bytes). 

Um método para proporcionar armazenamento de 
curto prazo é utilizar a memória do computador. Outro 
método é a utilização de placas de vídeo especializadas, 
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chamadas de frame buffers, que armazenam uma ou mais 
imagens e podem ser acessadas rapidamente, normal- 
mente em velocidades de vídeo (por exemplo, em 30 
imagens completas por segundo). Este método permi- 
te zoom de imagem praticamente instantâneo, além de 
scroll (deslocamentos verticais) e pan (deslocamentos ho- 
rizontais). Os frame buffers normalmente estão localizados 
no módulo de hardware especializado em processamento 
de imagens, mostrado na Figura 1.24. O armazenamento 
on-line geralmente utiliza discos magnéticos ou mídias 
óticas. O principal fator que caracteriza o armazenamen- 
to on-line é o acesso frequente aos dados armazenados. 
Por fim, o armazenamento em arquivo é caracterizado 
por requisitos de armazenamento em massa, mas com 
baixa frequência de acesso. Fitas magnéticas e discos óti- 
cos alojados em “jukeboxes” são as mídias mais utilizadas 
para aplicações de arquivamento de imagens. 


Os monitores de imagem utilizados hoje em dia são, 
em sua maioria, monitores de TV em cores (preferencial- 
mente de tela plana). Os monitores são controlados pelas 
placas de vídeo (gráficas ou de imagens), que são par- 
te integral de um sistema computacional. Raramente os 
requisitos das aplicações de visualização de imagens não 
podem ser satisfeitos pelas placas de vídeo disponíveis co- 
mercialmente como parte do sistema computacional. Em 
alguns casos, é necessária a visualização estereoscópica 
(3-D), implementada a partir de um tipo de “capacete” 
contendo dois pequenos monitores de vídeo acoplados 
em um óculos, que deve ser utilizado pelo usuário. 


Os sistemas de registro para as imagens incluem im- 
pressoras a laser, filmes fotográficos, impressora térmica, 
impressoras a jato de tinta e mídias digitais, como os dis- 
cos óticos e de CD-ROM. O filme proporciona a mais alta 
resolução possível, mas o papel é o meio preferido para o 
material escrito. Para apresentações, as imagens são exi- 
bidas em transparências ou na forma digital se for utili- 
zado um equipamento de projeção de imagens. A última 
abordagem está se tornando o padrão para apresentações 
de imagens. 


A rede de comunicação é quase um componente pa- 
drão de qualquer sistema computacional em uso hoje 
em dia. Em razão do grande volume de dados inerente 
às aplicações de processamento de imagens, a princi- 
pal preocupação na transmissão de imagens é a largura 
de banda. Em redes dedicadas, isso normalmente não 
constitui um problema, mas as comunicações com sites 
remotos pela Internet nem sempre são eficientes. Fe- 
lizmente, essa situação está melhorando rapidamente 
como resultado do advento da fibra ótica e de outras 
tecnologias de banda larga. 
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Resumo 


O principal objetivo do material apresentado neste 
capítulo é proporcionar uma visão geral das origens do 
processamento digital de imagens e, o mais importante, 
sobre as áreas de aplicação dessa tecnologia atuais e fu- 
turas. Apesar de a abordagem desses tópicos neste capí- 
tulo ter sido necessariamente incompleta por limitações 
de espaço, você agora deve ter uma ideia clara da ampli- 
tude e do objetivo prático do processamento digital de 
imagens. À medida que prosseguirmos nos capítulos se- 
guintes com o desenvolvimento da teoria e das aplicações 
em processamento de imagens, vários exemplos serão 
mostrados para manter o foco em relação à utilidade e 
ao compromisso dessas técnicas. Na conclusão do estudo, 
no capítulo final, o leitor terá atingido um nível básico de 
compreensão da maior parte do trabalho que atualmente 
tem sido desenvolvido na área. 


Referências e leituras complementares 


As referências apresentadas no final dos próximos 
capítulos incluem tópicos específicos neles discutidos e 
que são vinculados à Bibliografia no final do livro. No 
entanto, neste capítulo, usamos um formato diferente 
para resumir em um único local uma lista de periódicos 
que publicam conteúdo sobre processamento de imagens 
e tópicos relacionados. Também fornecemos uma lista de 
livros com os quais o leitor pode desenvolver prontamen- 
te uma perspectiva histórica e atualizada das atividades 
na área. Dessa forma, o material de referência mencio- 
nado neste capítulo foi elaborado para ser utilizado como 
um guia de uso geral e acessível da literatura sobre pro- 
cessamento de imagens. 


Os principais periódicos que publicam artigos sobre 
processamento de imagens e tópicos relacionados in- 
cluem: IEEE Transactions on Image Processing; IEEE Tran- 
sactions on Pattern Analysis and Machine Intelligence; Compu- 
ter Vision, Graphics, and Image Processing (antes de 1991); 
Computer Vision and Image Understanding; IEEE Transactions 
on Systems, Man and Cybernetics; Artificial Intelligence; Pattern 
Recognition; Pattern Recognition Letters; Journal of the Optical 
Society of America (antes de 1984); Journal of the Optical So- 
ciety of America — A: Optics, Image Science and Vision; Optical 
Engineering; Applied Optics — Information Processing; IEEE 
Transactions on Medical Imaging; Journal of Electronic Ima- 
ging; IEEE Transactions on Information Theory; IEEE Transac- 
tions on Communications; IEEE Transactions on Acoustics, Spe- 
ech and Signal Processing; Proceedings of the IEEE e edições 
da IEEE Transactions on Computers antes de 1980. Também 
sugerimos as publicações da International Society for Op- 
tical Engineering (SPIE). 


Os livros a seguir, organizados em ordem crono- 
lógica reversa (com um maior número de livros sendo 
publicações mais recentes), contêm material que com- 
plementa nossa abordagem do processamento digital de 
imagens. Eles representam uma visão geral de fácil acesso 
da área nos últimos 30 anos ou mais e foram seleciona- 
dos por apresentar uma grande variedade de abordagens. 
Variam de livros universitários, que cobrem o conteúdo 
básico, passando por manuais, que apresentam uma vi- 
são geral das técnicas, até livros que contenham material 
representantivo das pesquisas atuais na área. 
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Quem deseja o sucesso deve fazer as perguntas preliminares certas. 
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Capítulo 


Apresentação 


O objetivo deste capítulo é apresentar uma série de conceitos básicos do processamento digital de imagens que 
serão utilizados ao longo do livro. A Seção 2.1 resume a mecânica do sistema visual humano, incluindo 
a formação de imagens no olho e os recursos de discriminação e adaptação ao brilho. A Seção 2.2 analisa a 
luz, outros componentes do espectro eletromagnético e suas características de formação de imagens. 
A Seção 2.3 discute os sensores de imagens e como eles são utilizados para gerar imagens digitais. A Seção 
2.4 apresenta os conceitos da amostragem de imagens e quantização de intensidade. Tópicos adicionais 
discutidos nessa seção incluem representação da imagem digital, os efeitos da variação do número de 
amostras e níveis de intensidade em uma imagem, os conceitos da resolução espacial e de intensidade e os 
princípios da interpolação de imagens. A Seção 2.5 lida com uma variedade de relações básicas entre pixels. 
Por fim, a Seção 2.6 constitui uma introdução às principais ferramentas matemáticas que utilizaremos no livro 
todo. Um segundo objetivo dessa seção é ajudá-lo a começar a desenvolver uma “ideia” de como essas ferra- 
mentas são utilizadas em uma variedade de tarefas básicas de processamento de imagens. O escopo dessas fer- 
ramentas e sua aplicação serão explicados mais detalhadamente conforme for necessário no restante do livro. 


2.1 Elementos da percepção visual 


Apesar de o processamento digital de imagens se 
basear em fórmulas matemáticas e probabilísticas, a in- 
tuição e a análise humana desempenham um papel cen- 
tral na escolha de uma técnica em detrimento de outra, 
e a escolha, muitas vezes, se baseia em critérios visuais 
subjetivos. Dessa forma, é apropriado desenvolver uma 
compreensão básica da percepção visual humana como 
um primeiro passo da nossa jornada. Dada a complexi- 
dade e o alcance desse tópico, só temos como cobrir os 
aspectos mais rudimentares da visão humana. Em parti- 
cular, nosso interesse se concentrará na mecânica e nos 
parâmetros relacionados à formação e percepção das 
imagens pelos humanos. Estamos interessados em co- 
nhecer as limitações físicas da visão humana em relação 
aos fatores que também são utilizados em nosso trabalho 
com imagens digitais. Assim, fatores como de que forma 
os humanos e os dispositivos eletrônicos de formação de 


imagem se comparam em termos de resolução e a capa- 
cidade de se adaptar a mudanças na iluminação não são 
apenas interessantes, mas também importantes do ponto 
de vista prático. 


2.1.1 A estrutura do olho humano 


A Figura 2.1 mostra um corte transversal simplificado 
do olho humano. O olho é praticamente uma esfera, com 
um diâmetro médio de aproximadamente 20 mm. Três 
membranas o revestem: a córnea e a cobertura externa da 
esclera; a coroide; e a retina. A córnea é um tecido resistente 
e transparente que cobre a superfície anterior do olho. 
Como um prolongamento da córnea, temos a esclera, 
uma membrana opaca que reveste o restante do globo 
ocular. 

A coroide situa-se diretamente abaixo da esclera. 
Essa membrana contém uma rede de vasos sanguíneos 
que atua como a principal fonte de nutrição para o olho. 


Músculo 
ciliar 


zonulares 


Eixo visual 


Humor vítreo 


Retina 


Ponto cego 
Esclera 


Coroide 


Figura 2.1 
humano. 


Diagrama simplificado de um corte transversal do olho 


Até mesmo um dano superficial na coroide, muitas vezes 
não considerado sério, pode levar a um grave dano ocular 
como resultado de uma inflamação que reduz o fluxo san- 
guíneo. O revestimento da coroide é substancialmente pig- 
mentado, ajudando a reduzir a quantidade de luz indese- 
jável que entra no olho e se espalha pelo globo ocular. Em 
seu extremo anterior, a coroide se divide em corpo ciliar e íris. 
A íris se contrai ou se expande para controlar a quantidade 
de luz que entra no olho. A abertura central da íris (a 
pupila) varia em diâmetro de aproximadamente 2 a 8 mm. 
A parte frontal da íris contém o pigmento visível do olho, 
ao passo que a parte de trás contém um pigmento negro. 


O cristalino é composto de camadas concêntricas de 
células fibrosas e é suspenso por fibras que se ligam ao 
corpo ciliar. Ele contém entre 60 e 70% de água, cerca de 
6% de gordura e mais proteína do que qualquer outro te- 
cido do olho. É colorido por uma pigmentação ligeiramen- 
te amarelada, que se intensifica com a idade. Em casos 
extremos, a opacidade excessiva do cristalino, provocada 
pela doença comumente chamada de catarata, pode levar 
a problemas de discriminação de cores e perda de nitidez 
da visão. O cristalino absorve aproximadamente 8% do 
espectro da luz visível, com uma absorção relativamen- 
te superior de comprimentos de onda mais curtos. Tanto 
a luz infravermelha quanto a ultravioleta são absorvidas 
consideravelmente por proteínas contidas na estrutura 
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do cristalino e, em quantidades excessivas, podem dani- 
ficar o olho. 


A membrana mais interna do olho é a retina, que se 
estende por toda a porção posterior da parede do olho. 
Quando o olho está adequadamente focalizado, a luz de 
um objeto externo ao olho forma uma imagem na retina. 
A visão de padrões é obtida pela distribuição de receptores 
discretos de luz ao longo da superfície da retina. Há duas 
classes de receptores: cones e bastonetes. Cada olho possui 
cerca de 6 a 7 milhões de cones. Eles se localizam princi- 
palmente na porção central da retina, chamada de fovea, 
e são muito sensíveis à cor. Os humanos podem distinguir 
pequenos detalhes com esses cones, em grande parte por- 
que cada um deles está conectado à sua própria termina- 
ção nervosa. Os músculos que controlam o olho giram o 
globo ocular até que a imagem de um objeto de interesse 
incida na fóvea. A visão pelos cones é chamada de visão 
fotópica ou visão de luz clara. 


O número de bastonetes é muito maior: cerca de 75 
a 150 milhões são distribuídos pela superfície da retina. A 
ampla área de distribuição e o fato de vários bastonetes se- 
rem conectados a uma única terminação nervosa reduzem 
a quantidade de detalhes discerníveis por esses recepto- 
res. Os bastonetes servem para dar uma imagem geral do 
campo de visão. Eles não estão envolvidos na visualização 
de cores e são sensíveis a baixos níveis de iluminação. Por 
exemplo, objetos que aparecem brilhantemente coloridos 
à luz do Sol, aparecem como formas descoloridas quando 
iluminados pela luz de uma lua cheia, porque só os basto- 
netes são estimulados. Esse fenômeno é conhecido como 
visão escotópica ou visão de luz escura. 


A Figura 2.2 mostra a densidade de bastonetes e co- 
nes em um corte transversal do olho direito, passando 
pela região de saída do nervo ótico. A ausência de recep- 
tores nessa área resulta no assim chamado ponto cego (veja 
a Figura 2.1). Com exceção dessa região, a distribuição de 
receptores é radialmente simétrica em torno da fóvea. A 
densidade de receptores é medida em função do ângulo 
formado pelo eixo visual e a linha que passa através do 
centro do cristalino e cruza a retina. Observe, na Figura 
2.2, que os cones são mais densos no centro da retina 
(na área central da fóvea). Observe, também, que os bas- 
tonetes aumentam em densidade a partir do centro até 
aproximadamente 20º do eixo e, então, diminuem em 
densidade até a periferia extrema da retina. 


A fóvea é uma depressão circular na retina de cerca 
de 1,5 mm de diâmetro. Entretanto, para futuras consi- 
derações neste livro, é mais útil falarmos em termos de 
arranjos quadrados ou retangulares de elementos sen- 
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Figura 2.2 Distribuição de bastonetes e cones na retina. 


sores. Dessa forma, com alguma liberdade interpretati- 
va, podemos entender a fóvea como uma matriz sensora 
quadrada de tamanho 1,5 mm x 1,5 mm. A densidade 
de cones nessa região da retina é de aproximadamente 
150.000 elementos por mm?. Com base nessas aproxima- 
ções, o número de cones na região de maior acuidade vi- 
sual no olho é de aproximadamente 337.000 elementos. 
Considerando apenas o poder de resolução, um chip de 
aquisição de imagens do tipo CCD (dispositivo de carga 
acoplada) de média resolução pode conter esse número de 
elementos em uma matriz receptora de até 5 mm x 5 mm. 
Apesar de a habilidade dos seres humanos de integrar a 
inteligência e a experiência com a visão tornar esse tipo 
de comparação numérica de certa forma superficial, te- 
nha em mente que a capacidade básica do olho de distin- 
guir detalhes é, sem dúvida, comparável aos atuais senso- 
res eletrônicos de aquisição de imagem. 


2.1.2 Formação da imagem no olho 


Em uma câmera fotográfica comum, a lente tem 
uma distância focal fixa, e a focalização para diferentes 
distâncias é obtida variando a distância entre a lente e o 
plano-imagem, onde o filme (ou o chip de captura de ima- 
gem, no caso de uma câmera digital) se localiza. No olho 


humano, ocorre o oposto: a distância entre a lente e o 
plano-imagem (a retina) é fixa, e a distância focal ne- 
cessária para atingir uma focalização adequada é obtida 
variando o formato do cristalino (que equivale a uma 
lente flexível). Isso é realizado pelas fibras zonulares, que 
achatam ou espessam o cristalino para focalização de ob- 
jetos distantes ou próximos, respectivamente. A distância 
entre o centro do cristalino e a retina ao longo do eixo vi- 
sual é de aproximadamente 17 mm. A distância focal varia 
de 14 mm a 17 mm aproximadamente, e a última variação 
ocorre quando o olho está relaxado e focado em distâncias 
maiores do que cerca de 3 m. 


A disposição geométrica apresentada na Figura 2.3 
ilustra como calcular as dimensões de uma imagem for- 
mada na retina. Por exemplo, suponha que uma pessoa 
esteja olhando para uma árvore de 15 m de altura a uma 
distância de 100 m. Se A for a altura do objeto na imagem 
formada na retina, a disposição geométrica da Figura 2.3 
nos leva a 15/100 = h/17 ou h = 2,55 mm. Como ob- 
servamos na Seção 2.1.1, a imagem na retina é focaliza- 
da principalmente na área da fóvea. A percepção ocorre, 
então, pela excitação relativa dos receptores de luz, que 
transformam a energia radiante em impulsos elétricos, 
que são posteriormente decodificados pelo cérebro. 


Figura 2.3 Representação gráfica do olho focalizando uma árvore. O ponto C é o centro ótico do cristalino. 


2.1.3 Adaptação ao brilho e discriminação 


Como as imagens digitais são exibidas em níveis dis- 
cretos de intensidades, a capacidade do olho para discrimi- 
nar diferentes níveis de intensidade é uma consideração 
importante na apresentação de resultados de proces- 
samento de imagens. A escala de níveis de intensidade 
luminosa aos quais o sistema visual humano pode se 
adaptar é enorme — da ordem de 10!º — do limiar esco- 
tópico ao limite de ofuscamento. Consideráveis evidên- 
cias experimentais indicam que o brilho subjetivo (o brilho 
percebido pelo sistema visual humano) é uma função lo- 
garítmica da intensidade de luz incidente no olho. A Fi- 
gura 2.4, um gráfico da intensidade da luz em relação ao 
brilho subjetivo, ilustra essa característica. A longa curva 
sólida representa a escala de níveis de intensidade à qual 
o sistema visual pode se adaptar. Considerando apenas 
a visão fotópica, a escala é de cerca de 10º. A transição 
da visão escotópica para fotópica é gradual ao longo da 
escala, aproximadamente de 0,001 a 0,1 mililambert (-3 
a -l1 mL na escala logarítmica), como mostra a dupla ra- 
mificação da curva de adaptação nessa escala. 


O ponto crucial ao interpretar a impressionante es- 
cala dinâmica mostrada na Figura 2.4 é que o sistema 
visual não pode operar simultaneamente ao longo dessa 
escala. Pelo contrário, essa grande variação é obtida por 
meio de mudanças na sensibilidade global, um fenômeno 
conhecido como adaptação ao brilho. A escala total de ní- 
veis distintos de intensidade que podem ser simultanea- 
mente discriminados pelo olho é bastante pequena quan- 
do comparada à escala total de adaptação. Para qualquer 
conjunto de condições, o nível atual de sensibilidade do 
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Figura 2.4 Escala de sensações subjetivas ao brilho mostrando um 
nível particular de adaptação. 
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sistema visual é denominado nível de adaptação ao brilho, 
e pode corresponder, por exemplo, ao brilho B na Figura 
2.4. A curva mais curta representa a escala de brilho sub- 
jetivo que o olho pode perceber quando adaptado a esse 
nível. Essa variação é bastante restrita, com um nível B, 
abaixo do qual todos os estímulos são percebidos como 
variações indistinguíveis de preto. A porção superior 
(tracejada) da curva não é de fato restrita mas, quando 
muito estendida, perde seu significado, porque intensida- 
des muito mais altas simplesmente elevariam o nível de 
adaptação para cima de B . 

A habilidade do olho para discriminar mudangas de 
intensidade da luz em qualquer nivel especifico de adapta- 
ção também é de considerável interesse. Um experimento 
clássico, usado para determinar a capacidade do sistema 
visual humano na discriminação de brilho, consiste em 
fazer uma pessoa olhar para uma área plana e uniforme- 
mente iluminada que seja grande o bastante para ocupar 
todo o campo visual. Essa área é tipicamente um difu- 
sor, tal como um vidro opaco iluminado por trás por uma 
fonte de luz, cuja intensidade, I, pode ser variada. A esse 
campo é acrescentado um incremento de iluminação, AI, 
na forma de um “flash” de curta duração que aparece 
como um círculo no centro do campo uniformemente 
iluminado, como mostra a Figura 2.5. 


Se AI não for brilhante o suficiente, a pessoa diz 
“não”, indicando que a mudança não foi percebida. As- 
sim que AI for ficando mais forte, pode haver a resposta 
“sim”, indicando uma mudança percebida. Finalmente, 
quando AI for suficientemente forte, a pessoa responderá 
sempre “sim”. A quantidade AI/I, em que AI é o incre- 
mento de iluminação, o qual é discriminável em 50% das 
vezes com iluminação de fundo 1, é chamada de razão de 
Weber. Um baixo valor de AT /I significa que uma peque- 
na mudança percentual de intensidade é discriminável. 
Isso representa uma “boa” discriminação de brilho. Por 
outro lado, um alto valor de A7 /7 indica que uma grande 
mudança percentual de intensidade é necessária. Isso re- 
presenta uma discriminação “ruim” de brilho. 


I+AI 


Figura 2.5 Configuração experimental básica utilizada para carac- 
terizar a discriminação de brilho. 
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A forma geral do gráfico de log AZ/I como uma 
função de log 1 é apresentada na Figura 2.6. Essa curva 
mostra que a discriminação de brilho é ruim (a razão de 
Weber é grande) em baixos níveis de iluminação e me- 
lhora significativamente (a razão de Weber diminui) com 
o aumento da iluminação de fundo. As duas ramificações 
na curva refletem o fato de que, em baixos níveis de ilu- 
minação, a visão é desempenhada pela atividade dos bas- 
tonetes, ao passo que, em níveis elevados (apresentando 
melhor discriminação), a visão é função dos cones. 


Se a iluminação de fundo for mantida constante e 
a intensidade da outra fonte agora puder variar de forma 
incremental do imperceptível ao sempre perceptível, em 
vez de piscar como um flash, o observador típico poderá 
discernir um total de uma a duas dúzias de variações de 
intensidade. De uma forma geral, esse resultado está re- 
lacionado ao número de diferentes níveis de cinza que 
uma pessoa pode ver em qualquer ponto de uma ima- 
gem monocromática. Esse resultado não significa que 
uma imagem poderá ser representada por um número 
tão pequeno de valores de intensidade porque, à medida 
que o olho se desloca pela imagem, a intensidade média do 
fundo varia, permitindo, assim, que um conjunto diferente 
de mudanças incrementais seja detectado a cada novo ní- 
vel de adaptação. Por conseguinte, o olho se torna capaz 
de discriminar uma escala geral de níveis de intensidade 
muito mais ampla. De fato, mostramos na Seção 2.4.3 que 
o olho é capaz de detectar efeitos de contorno indesejados 
em imagens monocromáticas se a intensidade geral for re- 
presentada por menos que aproximadamente duas dúzias 
de níveis de cinza. 


Dois fenômenos demonstram claramente que o bri- 
lho percebido não é uma simples função da intensidade. 
O primeiro se baseia no fato de o sistema visual tender a 
subestimar ou superestimar os contornos entre as regiões 
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Figura 2.6 Razão de Weber típica como uma função da intensidade. 


de diferentes intensidades. A Figura 2.7(a) ilustra um 
exemplo notável desse fenômeno. Embora o nível de cin- 
za das linhas seja constante, na realidade percebe-se um 
padrão de brilho que é fortemente alterado próximo às 
bordas (Figura 2.7(c)). Essas linhas aparentemente recor- 
tadas são chamadas de bandas de Mach, em homenagem 
a Ernst Mach, quem primeiro descreveu esse fenômeno, 
em 1865. 


O segundo fenômeno, chamado de contraste simul- 
tâneo, está relacionado ao fato de o brilho percebido de 
uma região não depender simplesmente de sua intensi- 
dade, como demonstra a Figura 2.8. Todos os quadrados 
centrais têm exatamente o mesmo nível de cinza. Entre- 
tanto, eles parecem se tornar mais escuros à medida que 
o fundo se torna mais claro. Um exemplo mais comum é 
um pedaço de papel que parece branco quando está sobre 
uma mesa, mas pode parecer totalmente negro quando 
utilizado para proteger os olhos enquanto se olha direta- 
mente para um céu brilhante. 


Outros exemplos de fenômenos da percepção huma- 
na são as ilusões de ótica, nas quais o olho preenche lacu- 
nas de informação ou percebe propriedades geométricas de 
objetos de maneira equivocada. A Figura 2.9 mostra alguns 
exemplos. Na Figura 2.9(a), o contorno de um quadrado é 
visto claramente, apesar do fato de que nenhuma linha de- 
finindo um quadrado faz parte da imagem. O mesmo efeito, 
dessa vez com um círculo, pode ser visto na Figura 2.9(b); 


| | 
b : 
Intensidade real 
| | 
č 
Brilho percebido 
| | | | | | 
Figura 2.7 | Ilustração do efeito de bandas de Mach. O brilho perce- 


bido não é uma simples função da intensidade real. 
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Figura 2.8 Exemplos de contraste simultâneo. Todos os quadrados menores possuem exatamente o mesmo nível de cinza, mas parecem 
progressivamente mais escuros à medida que o fundo da imagem fica mais claro. 


observe como apenas algumas linhas bastam para dar a ilu- 
são de um círculo completo. Os dois segmentos de linha ho- 
rizontal na Figura 2.9(c) têm o mesmo comprimento, mas 
um deles parece ser mais curto do que o outro. Por fim, 
todas as linhas da Figura 2.9(d) orientadas a 45º são equidis- 
tantes e paralelas. No entanto, o padrão de linhas cruzadas 
cria a ilusão de que essas linhas estão longe de ser paralelas. 
As ilusões de óptica são uma característica do sistema visual 
humano que ainda não é totalmente compreendida. 


2.2 Aluzeo espectro eletromagnético 


O espectro eletromagnético foi apresentado na Seção 
1.3. Nesta seção, vamos analisar esse tópico em mais de- 
talhes. Em 1666, Sir Isaac Newton descobriu que, quando 
um feixe de luz solar passa através de um prisma de vidro, 
o feixe de luz emergente não é branco, mas consiste em 
um espectro contínuo de cores, que varia do violeta em 
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Figura 2.9 Algumas ilusões de ótica conhecidas. 


uma extremidade ao vermelho na outra. Como mostra 
a Figura 2.10, a variedade de cores que percebemos na 
luz visível representa uma parcela muito pequena do es- 
pectro eletromagnético. Em uma extremidade do espec- 
tro estão as ondas de rádio, com comprimentos de onda 
bilhões de vezes maiores que os da luz visível. Na outra 
extremidade do espectro estão os raios gama, com com- 
primentos de onda bilhões de vezes menores que os da 
luz visível. O espectro eletromagnético pode ser expres- 
so em termos de comprimento de onda, frequência ou 
energia. O comprimento de onda (A) e a frequência (v) se 
relacionam por meio da expressão: 

=É (2.2-1) 

v 

onde c é a velocidade da luz (2.998 x 10º m/s). A energia 
dos vários componentes do espectro eletromagnético é 
dada pela expressão: 


E=hv (2.2-2) 


onde h é a constante de Planck. As unidades de compri- 
mento de onda são metros, com os termos mícrons (sim- 
bolizados por pm e equivalentes a 10% m) e nanômetros 
(simbolizados por nm e equivalentes a 10° m) também 
sendo utilizados constantemente. A frequência é medida 
em Hertz (Hz), com um Hertz sendo igual a um ciclo de 
onda senoidal por segundo. Uma unidade de energia co- 
mumente utilizada é o elétron-volt. 


As ondas eletromagnéticas podem ser visualizadas 
como ondas senoidais que se propagam com o compri- 
mento de onda À (Figura 2.11), ou podem ser vistas como 
um fluxo de partículas sem massa, cada uma se deslocan- 
do em um padrão similar ao de uma onda e se moven- 
do na velocidade da luz. Cada partícula sem massa con- 
tém uma certa quantidade (ou quantum) de energia. Cada 
quantum de energia é chamado de fóton. Vemos na Equa- 
ção 2.2-2 que a energia é proporcional à frequência, de 
forma que os fenômenos eletromagnéticos de frequência 
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Energia de um fóton (elétron-volts) 
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Figura 2.10 Espectro eletromagnético. O espectro visível foi ampliado na figura para facilitar a explicação, mas observe que o espectro visível 


representa uma parcela relativamente estreita do espectro EM. 


mais alta (comprimento de onda mais curto) apresentam 
mais energia por fóton. Dessa forma, as ondas de rádio 
possuem fótons de baixa energia, as micro-ondas têm 
mais energia que as ondas de rádio, o infravermelho tem 
ainda mais energia, seguido do espectro visível, ultravio- 
leta, raios X e, finalmente, os raios gama, os que possuem 
energia mais alta entre todos. Essa é a razão pela qual os 
raios gama são tão perigosos aos organismos vivos. 


A luz é um tipo particular de radiação eletromag- 
nética que pode ser percebida pelo olho humano. O es- 
pectro visível (de cores) é mostrado expandido na Figura 
2.10 para fins desta discussão (analisaremos as cores em 
muito mais detalhes no Capítulo 6). A banda visível do 
espectro eletromagnético cobre a faixa que vai de 0,43 pm 
(violeta) até 0,79 pm (vermelho) aproximadamente. Por 
conveniência, o espectro de cores é dividido em seis gran- 
des regiões: violeta, azul, verde, amarelo, laranja e ver- 
melho. Nenhuma cor (ou outro componente do espectro 
eletromagnético) termina abruptamente, mas cada faixa 


Figura 2.11 Representação gráfica de um comprimento de onda. 


se mistura gradativamente à próxima, como mostra a 
Figura 2.10. 


As cores percebidas pelos humanos em um objeto 
são determinadas pela natureza da luz refletida pelo obje- 
to. Um corpo que reflete uma luz relativamente equilibra- 
da em todos os comprimentos de onda visíveis é percebido 
como branco pelo observador. No entanto, um corpo que 
favorece a refletância em uma faixa limitada do espectro 
visível exibe alguns tons de cor. Por exemplo, objetos ver- 
des refletem principalmente a luz com comprimentos de 
onda na faixa entre 500 e 570 nm, enquanto absorvem a 
maior parte da energia em outros comprimentos de onda. 


A luz sem cor é chamada de luz monocromática (ou 
acromática). O único atributo da luz monocromática é sua 
intensidade ou quantidade. Pelo fato de a intensidade da 
luz monocromática ser percebida como variações de pre- 
to a tons de cinza até chegar ao branco, o termo nível 
de cinza costuma ser utilizado para denotar a intensidade 
monocromática. Utilizamos os termos intensidade e nível 
de cinza como sinônimos nas discussões subsequentes. A 
variedade de valores mensurados de luz monocromáti- 
ca do preto ao branco costuma ser chamada de escala de 
cinza, e as imagens monocromáticas são comumente cha- 
madas de imagens em escala de cinza. 

A luz cromática (colorida) cobre o espectro de energia 
eletromagnética na faixa de 0,43 a 0,79 pm, aproxima- 
damente, como observado anteriormente. Além da fre- 


quência, três medidas básicas são utilizadas para descre- 
ver a qualidade de uma fonte de luz cromática: radiância, 
luminância e brilho. A radiância é a quantidade total de 
energia que é emitida pela fonte de luz e é normalmente 
medida em watts (W). A luminância, medida em lumens 
(Im), mede a quantidade de energia que um observador 
percebe de uma fonte de luz. Por exemplo, a luz emitida de 
uma fonte operando na região infravermelha do espectro 
pode ter uma energia significativa (radiância), mas um 
observador mal a perceberia; sua luminância seria prati- 
camente igual a zero. Por fim, como discutimos na Seção 
2.1, brilho é um descritor subjetivo da percepção da luz 
que é praticamente impossível de mensurar. Ele incorpora 
a noção acromática de intensidade e é um dos principais 
fatores na descrição da sensação de cores. 


Prosseguindo com a análise da Figura 2.10, notamos 
que, no extremo dos comprimentos de onda curtos do 
espectro eletromagnético, temos os raios gama e os raios 
X. Como vimos na Seção 1.3.1, a radiação gama é im- 
portante para a geração de imagens na área médica e na 
astronomia e para a geração de imagens por radiação em 
ambientes nucleares. Raios X de alta energia são utiliza- 
dos em aplicações industriais. Imagens de raios X de tórax 
e de raios X odontológicos estão no extremo de energia 
mais baixa da banda de raios X. A banda de raios X de 
baixa energia faz a transição para a região de ultravio- 
leta que, por sua vez, se mistura ao espectro visível em 
comprimentos de onda maiores. Passando para compri- 
mentos de onda ainda maiores, encontramos a banda in- 
fravermelha, que irradia calor, um fato que faz com que 
ela seja útil em aplicações de geração de imagens baseadas 
em “assinaturas de calor”. A parte da banda infraverme- 
lha mais próxima do espectro visível é chamada de região 
de infravermelho próximo. O extremo oposto dessa banda é 
chamado de região de infravermelho distante. Esta última 
região se mistura à banda de micro-ondas, a qual é bem 
conhecida como a fonte de energia dos fornos de micro- 
-ondas, mas tem muitas outras utilizações, incluindo a 
área das comunicações e radares. Por fim, a banda de on- 
das de rádio inclui a televisão, além do rádio AM e FM. 
Nos níveis de energia mais altos, sinais de rádio emanan- 
do de alguns corpos estelares são úteis em observações as- 
tronômicas. Exemplos de imagens na maioria das bandas 
que acabamos de discutir são dados na Seção 1.3. 


Em princípio, se um sensor capaz de detectar energia 
irradiada por uma banda do espectro eletromagnético pu- 
der ser desenvolvido, é possível criar imagens de eventos 
de interesse nessa banda. É importante notar, contudo, 
que o comprimento de onda de uma onda eletromagnéti- 
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ca que é necessário para “ver” um objeto deve ser do mes- 
mo tamanho ou menor que o objeto. Por exemplo, uma 
molécula de água tem um diâmetro na ordem de 10 m. 
Dessa forma, para estudar as moléculas, precisaríamos de 
uma fonte capaz de emitir na região do ultravioleta dis- 
tante ou na região de raios X de baixa energia. Essa limi- 
tação, além das propriedades físicas do material do sensor, 
define os limites fundamentais da capacidade dos sensores 
de aquisição de imagens, como os sensores de luz visível, 
o infravermelho e outros sensores utilizados hoje em dia. 


Apesar de a aquisição de imagens se basear predomi- 
nantemente na energia irradiada por ondas eletromagné- 
ticas, esse não é o único método para gerar imagens. Por 
exemplo, como vimos na Seção 1.3.7, o som refletido de 
um objeto pode ser utilizado para formar imagens de ul- 
trassom. Outras importantes fontes de imagens digitais são 
feixes de elétrons para a microscopia eletrônica e imagens 
sintéticas utilizadas em elementos gráficos e visualização. 


2.3 Sensores e aquisição de imagens 


A maioria das imagens nas quais estamos interes- 
sados é gerada pela combinação de uma fonte de “ilumi- 
nação” e a reflexão ou absorção de energia dessa fonte 
pelos elementos da “cena” cuja imagem está sendo ge- 
rada. Colocamos iluminação e cena entre aspas para en- 
fatizar o fato de que elas são consideravelmente mais 
genéricas que a situação habitual na qual uma fonte de 
luz visível ilumina uma cena 3-D (tridimensional) co- 
mum. Por exemplo, a iluminação pode se originar de 
uma fonte de energia eletromagnética, como um siste- 
ma de raios X, de radar ou infravermelho. Mas, como 
observado anteriormente, ela pode se originar de fontes 
menos tradicionais, como ultrassom ou até mesmo um 
padrão de iluminação gerado por computador. De forma 
similar, os elementos da cena poderiam ser objetos coti- 
dianos, mas também poderiam ser moléculas, formações 
rochosas subterrâneas ou um cérebro humano. Depen- 
dendo da natureza da fonte, a energia da iluminação é 
refletida dos objetos ou transmitida através deles. Um 
exemplo da primeira categoria é a luz refletida de uma 
superfície plana. Um exemplo da segunda categoria é 
quando raios X passam através do corpo de um paciente 
para gerar uma imagem radiográfica para diagnóstico. 
Em algumas aplicações, a energia refletida ou transmiti- 
da é direcionada para um fotoconversor (por exemplo, 
uma tela fluorescente), que converte a energia recebida 
em luz visível. A microscopia eletrônica e algumas apli- 
cações da geração de imagens na faixa de raios gama 
utilizam esse método. 
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A Figura 2.12 mostra os três principais arranjos de 
sensores utilizados para transformar a energia de ilumi- 
nação em imagens digitais. A ideia é simples: a energia 
que entra é transformada em tensão pela combinação 
da energia elétrica de entrada e do material do sensor, 
sensível a um tipo específico de energia que está sendo 
detectado. A forma de onda da tensão de saída é a res- 
posta do(s) sensor(es), e uma quantidade digital é obtida 
de cada sensor por meio da digitalização de sua respos- 
ta. Nesta seção, analisaremos as principais modalidades 
de sensores e de aquisição de imagens. A digitalização de 
imagens será discutida na Seção 2.4. 


2.3.1 Aquisição de imagens utilizando um único 
sensor 
A Figura 2.12(a) mostra os componentes de um 
único sensor. Talvez o sensor mais conhecido desse tipo 
seja o fotodiodo, construído com materiais semiconduto- 
res cuja forma de onda da tensão de saída é proporcional 
à intensidade da luz. A utilização de um filtro na entrada 


a 


de um sensor melhora sua seletividade. Por exemplo, um 
filtro passa-banda para a luz verde, colocado na entrada 
de um sensor de luz, favorece a luz na banda verde do 
espectro de cores. Em consequência, a saída do sensor 
será mais intensa para a luz verde que para outros com- 
ponentes do espectro visível. 


Para gerar uma imagem bidimensional (2-D) utili- 
zando um único sensor, deve haver deslocamentos re- 
lativos, tanto na direção x quanto na y entre o sensor e 
a área de aquisição da imagem. A Figura 2.13 mostra 
um arranjo utilizado no escaneamento de alta precisão, 
no qual um filme negativo é montado em um tambor 
cuja rotação mecânica realiza o deslocamento em uma 
dimensão. Um único sensor é montado em um eixo que 
realiza o movimento na direção perpendicular. Como o 
movimento mecânico pode ser controlado com alto nível 
de precisão, esse método representa uma forma acessí- 
vel (apesar de lenta) de obter imagens de alta resolução. 
Outros arranjos mecânicos similares utilizam uma base 
plana com o sensor se movimentando em duas direções 
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Figura 2.12 


(a) Um único sensor de aquisição de imagens. (b) Sensores de linha. (c) Sensores de área (matricial). 
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Figura 2.13 Combinação de um único sensor com movimento para 
gerar uma imagem bidimensional (2-D). 


lineares. Esses tipos de digitalizadores mecânicos são al- 
gumas vezes chamados de microdensitômetros. 


Outro exemplo de aquisição de imagens com um 
único sensor utiliza uma fonte de raio laser que coincide 
com o sensor. Espelhos móveis são utilizados para con- 
trolar o feixe de saída em um padrão de escaneamento e 
para direcionar o raio laser refletido ao sensor. Esse arranjo 
também pode ser utilizado na aquisição de imagens utili- 
zando sensores por varredura de linha e sensores de área 
ou matriciais, que discutiremos nas duas seções a seguir. 


2.32 Aquisição de imagens utilizando sensores por 
varredura de linha 
Uma disposição geométrica utilizada com muito mais 


frequência que os sensores únicos consiste em um arran- 
jo linear de sensores na forma de uma faixa de senso- 
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res, como mostra a Figura 2.12(b). O arranjo linear dos 
sensores fornece elementos para a aquisição de imagens 
em uma direção. Movimentos na direção perpendicu- 
lar à linha de sensores geram imagens na outra direção, 
como mostra a Figura 2.14(a). Esse é o tipo de arran- 
jo utilizado na maioria dos scanners de mesa. É possível 
construir dispositivos de varredura de linha com 4.000 
ou mais sensores alinhados. Os sensores por varredura 
de linha costumam ser utilizados em aplicações de aqui- 
sição de imagens aéreas, nas quais o sistema de geração 
de imagens é montado em um avião que voa em uma alti- 
tude e velocidade constantes sobre a área geográfica cuja 
imagem será gerada. Sensores por varredura de linha, 
unidimensionais, sensíveis a diversas bandas do espectro 
eletromagnético, são instalados perpendicularmente à di- 
reção do voo. Eles fornecem uma linha de uma imagem 
por vez e o movimento do arranjo de sensores completa 
a outra dimensão de uma imagem bidimensional. Lentes 
ou outros dispositivos de focalização são utilizados para 
projetar nos sensores a região a ser escaneada. 


Os sensores por varredura de linha instalados em 
uma configuração em forma de anel são utilizados na 
aquisição de imagens médicas e industriais, com o in- 
tuito de obter imagens de corte transversal (“fatias” de 
objetos tridimensionais), como mostra a Figura 2.14(b). 
Uma fonte giratória de raios X fornece a radiação, e os 
sensores opostos à fonte coletam a energia dos raios X 
que passa através do objeto (os sensores obviamente 
precisam ser sensíveis à energia dos raios X). Essa é a 
base da geração de imagens pela tomografia axial com- 


a b 
Linha da imagem de saída por 
incremento do movimento linear 
Área de aquisição 
de imagem Reconstrução 
da imagem 
Imagens de corte transversal 
Movimento do objeto 3-D 
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Faixa de sensores 
Objeto 3-D 
> Fonte de 
4 on raios X 
Anel de sensores 
Figura 2.14 (a) Aquisição de imagens utilizando um arranjo plano de sensores por varredura de linha. (b) Aquisição de imagens utilizando um 


arranjo circular de sensores por varredura de linha. 
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putadorizada (CAT, de computerized axial tomography) mé- 
dica e industrial, como mostrado nas seções 1.2 e 1.3.2. 
É importante notar que a saída dos sensores deve ser 
processada por algoritmos de reconstrução cujo objetivo 
é transformar os dados coletados em imagens de corte 
transversal que possam ser compreendidas (veja a Seção 
5.11). Em outras palavras, as imagens não são obtidas 
diretamente dos sensores somente pelo movimento; 
elas requerem extensivo processamento computacional. 
Um volume digital 3-D que consiste de diversas imagens 
empilhadas é gerado à medida que o objeto é desloca- 
do em uma direção perpendicular ao anel de sensores. 
Outras modalidades de aquisição de imagens baseadas 
no princípio CAT incluem a geração de imagens por 
ressonância magnética (MRI, de magnetic resonance ima- 
ging) e a tomografia por emissão de pósitrons (PET, de 
pósitron emission tomography). As fontes de radiação, os 
sensores e os tipos de imagens são diferentes, mas con- 
ceitualmente são muito similares ao procedimento bási- 
co de aquisição de imagens mostrado na Figura 2.14(b). 


2.3.3 Aquisição de imagens utilizando sensores 
matriciais 
A Figura 2.12(c) mostra sensores individuais dispostos 
em forma de uma matriz bidimensional. Numerosos dispo- 
sitivos sensores eletromagnéticos e alguns ultrassônicos são 


Fonte de iluminação 


A (energia) 


frequentemente dispostos na forma matricial. Esse também 
é o arranjo predominante encontrado nas câmeras digitais. 
Um sensor típico para essas câmeras é uma matriz CCD, que 
pode ser fabricada com uma grande variedade de proprie- 
dades sensoras e dispostas em arranjos matriciais de 4.000 
x 4.000 elementos ou mais. Os sensores CCD são ampla- 
mente utilizados em câmeras digitais e outros instrumentos 
que utilizam sensores de luz. A resposta de cada sensor é 
proporcional à integral da energia luminosa projetada sobre 
a superfície do sensor, uma propriedade que é utilizada em 
aplicações astronômicas e outras que requerem imagens de 
baixo nível de ruído. A redução de ruídos é realizada fazendo 
com que o sensor integre o sinal luminoso de entrada em um 
intervalo de minutos ou mesmo horas. Pelo fato de a matriz 
de sensores da Figura 2.12(c) ser bidimensional, sua princi- 
pal vantagem é que uma imagem completa pode ser obtida 
projetando o padrão de energia na superfície da matriz. Ob- 
viamente, o movimento não é necessário, como é o caso dos 
arranjos de sensores discutidos nas duas seções anteriores. 


A principal forma na qual os sensores matriciais são 
utilizados é mostrada na Figura 2.15. Essa figura mostra a 
energia de uma fonte de iluminação sendo refletida de um 
elemento de uma cena (como mencionado no início desta 
seção, a energia também poderia ser transmitida através dos 
elementos da cena). A primeira função realizada pelo sis- 
tema de aquisição de imagens da Figura 2.15(c) é coletar a 
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Figura 2.15 Exemplo do processo de aquisição de uma imagem digital (a) Fonte de energia (“iluminação”). (b) Um elemento de uma cena. (c) 
Sistema de aquisição de imagens. (d) Projeção da cena no plano imagem. (e) Imagem digitalizada. 


* Em alguns casos, geramos a imagem diretamente da fonte, como na obtenção de imagens do Sol. 


energia de entrada e projetá-la em um plano imagem. Se a 
iluminação for luz, a entrada frontal do sistema de aquisição 
de imagens é uma lente ótica que projeta a cena vista sobre 
o plano focal da lente, como mostra a Figura 2.15(d). O ar- 
ranjo de sensores, que coincide com o plano focal, produz 
saídas proporcionais à integral da luz recebida em cada sen- 
sor. Circuitos digitais e analógicos realizam uma varredura 
nessas saídas e as convertem em um sinal analógico, que é 
então digitalizado por um outro componente do sistema de 
aquisição de imagens. A saída é uma imagem digital, como 
mostra o esquema da Figura 2.15(e). A conversão de uma 
imagem em formato digital será explicada na Seção 2.4: 


2.3.4 Um modelo simples de formação de imagem 


Como vimos na Seção 1.1, expressamos imagens 
como funções bidimensionais na forma f (x, y). O valor ou 
a amplitude de f nas coordenadas espaciais (x, y) é uma 
quantidade escalar positiva cujo significado físico é deter- 
minado pela origem da imagem. Quando uma imagem é 
gerada a partir de um processo físico, seus valores de inten- 
sidade são proporcionais à energia irradiada por uma fonte 
real (por exemplo, ondas eletromagnéticas). Em conse- 
quência, f(x, y) deve ser diferente de zero e finito; ou seja, 


0 < f(x,y) < œ (2.3-1) 


A função f (x, y) pode ser caracterizada por dois com- 
ponentes: (1) a quantidade de iluminação da fonte que 
incide na cena que está sendo vista; e (2) a quantidade de 
iluminação refletida pelos objetos na cena. Esses elementos 
são chamados de componentes de iluminação e refletância e 
são expressos por i (x, y) e r (x, y), respectivamente. As duas 
funções se combinam como um produto para formar f (x, y): 


f(y) = i, y)r (x,y) (2.3-2) 
onde 
0<i(x, y) <œ (2.3-3) 
e 
0<r(x, y)<1 (2.3-4) 


A Equação 2.3-4 indica que a refletância está en- 
tre O (absorção total) e 1 (refletância total). A natureza 


* As intensidades da imagem podem se tornar negativas durante o 
processamento ou como um resultado da interpretação. Por exem- 
plo, em imagens de radar, os objetos que se aproximam de um siste- 
ma de radar muitas vezes são interpretados como tendo velocidades 
negativas ao passo que objetos que se distanciam são interpretados 
como tendo velocidades positivas. Dessa forma, a velocidade da ima- 
gem pode ser codificada como tendo valores tanto positivos quanto 
negativos. Ao armazenar e exibir imagens, nós normalmente ajusta- 
mos as intensidades de forma que o menor valor negativo seja igual 
a O (veja a Seção 2.6.3 sobre o ajuste de intensidades). 
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de i (x, y) é determinada pela fonte de iluminação, e r 
(x, y) é determinado pelas características dos objetos da 
cena. Note que essas expressões também são aplicáveis 
a imagens formadas pela transmissão de iluminação 
através de um objeto, como uma radiografia de tórax. 
Nesse caso, teríamos uma função de transmissividade 
em vez de refletividade, mas os limites seriam iguais aos 
da Equação 2.3-4 e a função que definiria a imagem 
formada seria representada como o produto na Equa- 
ção 2.3-2. 


= 
Exemplo 2.1 Alguns valores típicos de iluminação e 
refletância. 

Os valores dados nas equações 2.3-3 e 2.3-4 são limi- 
tes teóricos. As médias a seguir ilustram algumas faixas típi- 
cas de i (x, y) para a luz visível. Em um dia claro, o Sol pode 
produzir mais do que 90.000 Im/m? de iluminação sobre a 
superfície da Terra. Esse número cai para menos de 10.000 
Im/m? em um dia nublado. Em uma noite clara, a Lua cheia 
gera uma iluminação de cerca de 0,1 Im/m?. O nível típi- 
co de iluminação em um escritório comercial é de cerca de 
1.000 Im/m?. De forma similar, veja a seguir valores típicos 
de r (x, y): 0,01 para o veludo preto; 0,65 para o aço inoxi- 
dável; 0,80 para a tinta branca em uma parede plana; 0,90 
para o metal prateado; e 0,93 para a neve. 

E 


Expressamos a intensidade (nível de cinza) de 
uma imagem monocromática em quaisquer coordena- 
das (x, Y) por: 


L = fy Y) (2.3-5) 


A partir das equações 2.3-2 a 2.3-4, fica claro que / 
está na faixa: 


EE E La (2.3-6) 


Teoricamente, o único requisito para L „m é que ele 
seja positivo e para L |. é que ele seja finito. Na prática, 


a 
L =i ro eL.o =i _ r ,. Utilizando o valor médio 
max max 


min mín mín máx 
mostrado anteriormente para a iluminação de escritório 
e a faixa de valores de refletância como diretrizes, po- 
demos esperar que os limites típicos para valores em re- 
cintos fechados sem iluminação adicional seja Lm = 10 


eL. x 1.000. 


max 
O intervalo [L .,L..] é chamado de escala (ou in- 
mim max 

tensidade) de cinza. Costuma-se deslocar numericamente 
esse intervalo para o intervalo [0, L- 1], onde / = 0 é 
considerado preto, e (= L — 1 é considerado branco na 
escala de cinza. Todos os valores intermediários são tons 
de cinza variando do preto ao branco. 
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2.4 Amostragem e quantização de 
imagens” 

Da discussão feita na seção anterior, vemos que exis- 
tem várias formas de aquisição de imagens, mas nosso obje- 
tivo em todas elas é o mesmo: gerar imagens digitais a par- 
tir de dados captados por sensores. A saída da maioria dos 
sensores consiste de uma forma de onda de tensão contínua 
cuja amplitude e o comportamento no espaço estão relacio- 
nados ao fenômeno físico que está sendo captado pelos sen- 
sores. Para criar uma imagem digital, precisamos converter 
os dados contínuos que foram captados para o formato di- 
gital. Isso envolve dois processos: amostragem e quantização. 


2.4.1 Os conceitos básicos da amostragem e da 

quantização 

A ideia básica por trás da amostragem e da quanti- 
zação é ilustrada na Figura 2.16. A Figura 2.16(a) mostra 
uma imagem contínua fque queremos converter em for- 
mato digital. Uma imagem pode ser contínua em relação 
as coordenadas x e y e também em relação à amplitu- 
de. Para convertê-la ao formato digital, temos de fazer 
a amostragem da função em ambas a coordenadas e na 
amplitude. A digitalização dos valores de coordenada é 
chamada de amostragem. A digitalização dos valores de 
amplitude é chamada de quantização. 


Ese E E O e 
Amostragem 


A função unidimensional da Figura 2.16(b) é um 
gráfico que representa os valores de amplitude (nível de 
intensidade) da imagem contínua ao longo do segmen- 
to de reta AB na Figura 2.16(a). As variações aleatórias 
se devem ao ruído da imagem. Para realizar a amostragem 
dessa função, colhemos amostras igualmente espaçadas 
ao longo da linha AB, como mostra a Figura 2.16(c). A 
posição de cada amostra no espaço é indicada por uma 
pequena marca vertical na parte inferior da figura. As 
amostras são representadas por pequenos quadrados 
brancos superpostos na função. O conjunto dessas lo- 
calizações discretas nos dá a função de amostragem. No 
entanto, os valores das amostras ainda cobrem (vertical- 
mente) uma faixa contínua de valores de intensidade. 
Para formar uma função digital, os valores de intensidade 
também devem ser convertidos (quantizados) em quanti- 
dades discretas. O lado direito da Figura 2.16(c) mostra 
a escala de intensidade dividida em oito intervalos dis- 
cretos, variando do preto ao branco. As marcas verticais 
indicam o valor específico atribuído a cada um dos oito 
níveis de intensidade. Os níveis de intensidade continu- 
os são quantizados atribuindo um dos oito valores para 
cada amostra. Essa atribuição é feita dependendo da pro- 
ximidade vertical de uma amostra a uma marca indica- 
dora. As amostras digitais resultantes da amostragem e 
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Figura 2.16 Produzindo uma imagem digital. (a) Imagem contínua. (b) Linha de varredura de A a B na imagem contínua utilizada para ilustrar 
os conceitos de amostragem e quantização. (c) Amostragem e quantização. (d) Linha de varredura digital. 


* A discussão sobre a amostragem nesta seção é de uma natureza intuitiva. Analisaremos esse tópico com mais profundidade no Capítulo 4. 


da quantização são mostradas na Figura 2.16(d). Ao co- 
meçar na parte superior da imagem e realizar esse proce- 
dimento linha por linha, produz-se uma imagem digital 
bidimensional. Está implícito na Figura 2.16 que, além do 
número discreto de níveis utilizados, a precisão atingida 
na quantização depende muito do conteúdo de ruído do 
sinal da amostragem. 


A amostragem da forma que acabamos de descrever 
presume que temos uma imagem contínua em ambas 
as direções das coordenadas, bem como na amplitude. 
Na prática, o método de amostragem é determinado pelo 
arranjo dos sensores utilizados para gerar a imagem. 
Quando uma imagem é gerada por um único elemento 
sensor combinado com um movimento mecânico, co- 
mo na Figura 2.13, a saída do sensor é quantizada da 
forma descrita anteriormente. No entanto, a amostra- 
gem espacial é realizada selecionando-se o número de 
incrementos mecânicos individuais em que o sensor será 
ativado para a coleta de dados. O movimento mecânico 
pode ser muito exato, de forma que, em princípio, pra- 
ticamente não existe um limite da precisão com a qual 
podemos amostrar uma imagem com esse procedimen- 
to. Na prática, os limites da precisão de amostragem são 
determinados por outros fatores, como a qualidade dos 
componentes óticos do sistema. 


Quando sensores por varredura de linha são utiliza- 
dos para a aquisição da imagem, o número de sensores da 
linha define as limitações da amostragem na direção da 
imagem. O movimento mecânico na outra direção pode 
ser controlado com mais precisão, mas faz pouco senti- 
do tentar atingir uma densidade de amostragem em uma 
direção que exceda os limites de amostragem definidos 
pelo número de sensores na outra. A quantização das saí- 
das do sensor completa o processo de formação de uma 
imagem digital. 

Quando uma matriz de sensores é utilizada para a 
aquisição de imagem, não há movimento, e o número de 
sensores na matriz determina os limites da amostragem 
em ambas as direções. A quantização das saídas do sen- 
sor é realizada como no exemplo anterior. A Figura 2.17 
ilustra esse conceito. A Figura 2.17(a) mostra uma ima- 
gem contínua projetada sobre o plano de uma matriz de 
sensores. A Figura 2.17(b) mostra a imagem após a amos- 
tragem e a quantização. A qualidade da imagem digital é 
claramente determinada, em grande parte, pelo número 
de amostras e de níveis discretos de intensidade utilizados na 
amostragem e na quantização. No entanto, como mostra- 
remos na Seção 2.4.3, o conteúdo da imagem também é 
um fator importante na escolha desses parâmetros. 
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Figura 2.17 (a) Imagem contínua projetada em uma matriz de sen- 
sores. (b) Resultado da amostragem e quantização da imagem. 


2.4.2 Representação de imagens digitais 


Fazemos com que f (s, t) represente uma função de 
imagem contínua de duas variáveis contínuas, s e t. Con- 
vertemos essa função em uma imagem digital por meio da 
amostragem e quantização, como explicado na seção an- 
terior. Suponha que realizemos a amostragem da imagem 
contínua em uma matriz 2-D, f (x, y), contendo M linhas 
e N colunas, sendo que (x, y) são coordenadas discretas. 
Para fins de praticidade e clareza na notação, utilizamos 
números inteiros para essas coordenadas discretas: x = 
0, 1,2,...,M-ley=0, 1, 2,..., N- 1. Dessa forma, por 
exemplo, o valor da imagem digital na origem é f (0, 0), 
e o próximo valor de coordenada ao longo da primeira 
linha é f (0, 1). No caso, a notação (0, 1) é utilizada para 
representar a segunda amostra ao longo da primeira li- 
nha. Isso não significa que esses são os valores físicos das 
coordenadas quando a imagem foi amostrada. Em geral, 
o valor da imagem em quaisquer coordenadas (x, y) é ex- 
presso por f (x, y), onde x e y são números inteiros. A seção 
do plano real que se expande pelas coordenadas de uma 
imagem é chamada de domínio espacial, com x e y sendo 
chamadas de variáveis espaciais e coordenadas espaciais. 


Como mostra a Figura 2.18, há três formas básicas 
de representar f(x, y). A Figura 2.18(a) é uma represen- 
tação gráfica da imagem, com dois eixos determinando 
a localização espacial e o terceiro eixo representando os 
valores de f (intensidades) como uma função das duas 
variáveis espaciais x e y. Apesar de ser possível conhe- 
cer a estrutura da imagem nesse exemplo analisando essa 
representação gráfica, imagens complexas em geral são 
muito detalhadas e de difícil interpretação a partir dessas 
representações. A representação gráfica é útil ao traba- 
lhar com conjuntos em escala de cinza cujos elementos 
são expressos em um grupo de três variáveis na forma (x, 
y, 2), onde x e y são coordenadas espaciais e z é o valor da 
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(a) Imagem representada graficamente como uma superfície. (b) Imagem representada como uma matriz de intensidade visual. (c) 


Imagem representada como uma matriz numérica 2-D (0, .5 e 1 correspondem ao preto, cinza e branco, respectivamente). 


intensidade f nas coordenadas (x, y). Trabalharemos com 
essa representação na Seção 2.6.4. 


A representação da Figura 2.18(b) é muito mais 
comum. Ela mostra f (x, y) como uma imagem seria vi- 
sualizada em um monitor ou uma fotografia. Aqui, o 
nível de cinza de cada ponto é proporcional ao valor da 
intensidade f desse ponto. Nessa figura, temos apenas 
três valores de intensidade igualmente espaçados. Se a 
intensidade for normalizada para o intervalo [0, 1], cada 
ponto da imagem tem o valor 0, 0,5 ou 1. Um monitor 
ou impressora simplesmente converte esses três valores 
em preto, cinza ou branco, respectivamente, como mos- 
tra a Figura 2.18(b). A terceira representação é somente 
para mostrar os valores numéricos f (x, y) na forma de 
uma matriz. Nesse exemplo, o tamanho de fé de 600 x 
600 elementos, ou 360.000 números. Claramente, im- 
primir a matriz inteira seria inconveniente e transmiti- 
ria pouca informação. No entanto, no desenvolvimento 
de algoritmos essa representação é bastante útil quando 
apenas algumas partes da imagem são impressas e ana- 
lisadas como valores numéricos. A Figura 2.18(c) repre- 
senta esse conceito. 


Do parágrafo anterior podemos concluir que as repre- 
sentações das figuras 2.18(b) e (c) são as mais úteis. As ima- 
gens nos permitem ver rapidamente os resultados. Matrizes 
numéricas são utilizadas para processamento e desenvolvi- 
mento de algoritmos. Na forma de equação, escrevemos a 
representação de uma matriz numérica M x N como 


f(0,0) f(0,1) f(0,N— 1) 

TET A 0) k 1) ia 1) 
f(M-LO) NM-L1) f(M-1,N- 1) 
(2.4-1) 


Os dois lados dessa equação são formas equivalen- 
tes de representar quantitativamente uma imagem digital. 
O lado direito é uma matriz de números reais. Cada ele- 
mento dessa matriz é chamado de elemento de imagem, 
elemento pictórico, pixel ou pel. Os termos imagem e pixel são 
utilizados ao longo deste livro para expressar uma ima- 
gem digital e seus elementos. 


Em algumas discussões é vantajoso utilizar uma no- 
tação matricial mais tradicional para expressar uma ima- 
gem digital e seus elementos: 


40,0 40,1 40,N-1 
41,0 41,1 nee 41,N-1 
A= À ; (2.4-2) 
4yMq-1,0 4mM-1,1 âM-1,N-1 


Claramente, a, = f(x =i, y = j) = fli, j), de forma que 
as equações 2.4-1 e 2.4-2 são matrizes idênticas. Pode- 
mos até representar uma imagem como um vetor, v. Por 
exemplo, um vetor coluna de tamanho MN x 1 é formado 
fazendo com que os primeiros M elementos de v corres- 
pondam à primeira coluna de A, os próximos M elemen- 
tos correspondam à segunda coluna e assim por diante. Da 
mesma forma, também podemos utilizar as linhas em vez 
das colunas de A para formar um vetor desse tipo. As duas 
representações são válidas desde que sejam consistentes. 


Retomando rapidamente a Figura 2.18, observe que 
a origem de uma imagem digital se localiza na parte su- 
perior esquerda, com o eixo x positivo se estendendo para 
baixo e o eixo y positivo se estendendo para a direita. Essa 
é uma representação convencional baseada no fato de que 
muitos dispositivos de visualização de imagem (por exem- 
plo, monitores de TV) varrem uma imagem começando do 
canto superior esquerdo e se movendo para direita, uma 
linha por vez. Mais importante é o fato de que o primeiro 
elemento de uma matriz é, por convenção, o elemento do 
canto superior esquerdo, de forma que a escolha da ori- 
gem de f(x, y) nesse ponto faz sentido matematicamente. 
Tenha em mente que essa representação é o sistema pa- 
drão de coordenadas cartesianas que você já conhece.” Nós 
simplesmente mostramos os eixos apontando para baixo e 
para a direita, em vez de para a direita e para cima. 


Expressar a amostragem e a quantização em termos 
matemáticos mais formais pode ser útil algumas vezes. 
Considere Z e R um conjunto de números inteiros e um 
conjunto de números reais respectivamente. O processo 
de amostragem pode ser entendido como uma divisão do 
plano xy em relação a uma grade, com as coordenadas 
do centro de cada elemento dessa grade representando um 
par de elementos do produto cartesiano Z’, que é o con- 
junto de todos os pares ordenados (z, Z), com z,e z, sendo 
elementos de Z. Dessa forma, f (x, y) é uma imagem digital 
se (x, y) forem elementos de 7? e f for uma função que 
atribui um valor de intensidade (isto é, um número real do 
conjunto R) a cada par distinto de coordenadas (x, y). Essa 
atribuição funcional é o processo de quantização descrito 


Lembre-se de que um sistema de coordenadas destro é aquele cujo 
dedo indicador da mão direita aponta para a direção do eixo posi- 
tivo x, o dedo médio aponta para a direção (perpendicular) do 
eixo positivo y e o polegar aponta para cima. Conforme a Figura 
2.18(a) demonstra, esse é o caso do nosso sistema de coordenadas 
de imagem. 
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anteriormente. Se os níveis de intensidade também forem 
números inteiros (como geralmente é o caso neste e em 
capítulos subsequentes), Z substitui R e uma imagem digi- 
tal se torna uma função bidimensional cujas coordenadas 
e valores de amplitude são números inteiros. 


Esse processo de digitalização requer que decisões 
sejam tomadas em relação aos valores de M, N e para o 
número, L, de níveis discretos de intensidade. Não há 
restrições para M e N, além do fato de que eles preci- 
sam ser números inteiros positivos. No entanto, em vir- 
tude de algumas considerações de hardware no proces- 
so de armazenamento e quantização, o número de níveis 
de intensidade costuma ser uma potência inteira de 2:” 


= (2.4-3) 


Assumimos que os níveis discretos sejam igual- 
mente espaçados e que sejam números inteiros no in- 
tervalo [0, L — 1]. Algumas vezes, a faixa de valores 
cobertos pela escala de cinza é chamada informalmente 
de faixa dinâmica. Esse é um termo utilizado de forma 
distinta em diferentes áreas. Aqui, definimos a faixa di- 
nâmica de um sistema de aquisição de imagens como a 
razão da intensidade máxima mensurável pela intensi- 
dade minima detectável no sistema. Como regra, o li- 
mite superior é determinado pela saturação e o limite 
inferior pelo ruído (veja a Figura 2.19). Basicamente, 
a faixa dinâmica define os níveis inferior e superior de 
intensidade que um sistema pode representar e, conse- 
quentemente, que uma imagem pode ter. Estreitamente 
associado a esse conceito temos o contraste da imagem, 
que definimos como a diferença entre os níveis superior 
e inferior de intensidade presentes em uma imagem. 
Quando um número significativo de pixels em uma ima- 
gem possui uma alta faixa dinâmica, podemos esperar 
que a imagem tenha um alto contraste. Por outro lado, 
uma imagem com baixa faixa dinâmica normalmente 
tem uma aparência embaçada, sem brilho. Discutiremos 
esses conceitos em mais detalhes no Capítulo 3. 


O número, b, de bits necessários para armazenar 
uma imagem digitalizada é 


b=MxNxk (2.4-4) 
Quando M = N, essa equação passa a ser 
b = NX (2.4-5) 


“ Muitas vezes, é útil para fins computationais o no desenvolvi- 
mento de algoritmos ajustar os valores de intensidade de L para 
o intervalo [0, 1], caso no qual eles deixam de ser números in- 
teiros. No entanto, na maioria dos casos, esses valores são nova- 
mente ajustados para o intervalo de números ineiros [0, L — 1] 
para o armazenamento e a exibição de imagens. 
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Figura 2.19 Uma imagem ilustrando a saturação e o ruído. A satura- 
ção é o valor mais alto além do qual todos os níveis de intensidade são 
cortados (observe como toda a área saturada tem um nível de intensi- 
dade constante e alto). O ruído nesse caso aparece com um padrão de 
textura granulada. O ruído, especialmente nas regiões mais escuras 
de uma imagem (por exemplo, o caule da rosa) mascara o menor nível 
real de intensidade detectável. 


A Tabela 2.1 mostra o número de bits necessário para 
armazenar imagens quadradas com vários valores de N e k. 
O número de níveis de intensidade correspondente a cada 
valor de k é mostrado entre parênteses. Quando uma ima- 
gem pode ter 2* níveis de intensidade, é comum nos refe- 
rirmos a ela como uma “imagem de k bits”. Por exemplo, 
uma imagem com 256 valores discretos possíveis de inten- 
sidade é chamada de uma imagem de 8 bits. Observe que 
os requisitos de armazenamento para imagens de 8 bits de 
tamanho 1.024 x 1.024 ou superior são significativos. 


2.43 Resolução espacial e de intensidade 


Intuitivamente, a resolução espacial é uma medida 
do menor detalhe discernível em uma imagem. Quan- 
titativamente, a resolução espacial pode ser expressa em 
várias formas, sendo que as mais comuns são pares de 
linha por unidade de distância e pontos (pixels) por unida- 
de de distância. Suponha que elaboremos um diagrama 
com linhas verticais pretas e brancas dispostas alterna- 
damente, cada uma com uma largura de W unidades (W 
pode ser menor que 1). A largura de um par de linhas é, 
dessa forma, iguala 2W e há 1/2W, e pares de linha por 
unidade de distância. Por exemplo, se a largura de uma 
linha for 0,1 mm, temos 5 pares de linha por unidade 
de distância (mm). Uma definição amplamente utilizada 
de resolução de imagem é o maior número de pares de 
linha discerníveis por unidade de distância (por exem- 
plo, 100 pares de linha por mm). Pontos por unidade de 
distância é uma medida de resolução de imagem comu- 
mente utilizada por editoras e industrias gráficas. Nos 
Estados Unidos, essa medida é normalmente expressa 
como dots per inch (pontos por polegada ou dpi). Para dar 
uma ideia de qualidade, jornais são impressos com uma 
resolução de 75 dpi, as revistas, com 133 dpi, brochuras 
em papel couchê em 175 dpi e a página do livro que 
você está lendo agora é impressa com 2.400 dpi. 

O ponto principal do parágrafo anterior é que, para 
serem significativas, as medidas de resolução espacial de- 
vem ser expressas com relação a unidades espaciais. O ta- 
manho da imagem por si só não diz tudo. Dizer que uma 
imagem tem, digamos, uma resolução de 1.024 x 1.024 
pixels não faz muito sentido se as dimensões espaciais da 
imagem não forem especificadas. O tamanho sozinho só 
é útil ao fazer comparações entre capacidade de sistemas 
de aquisição de imagens. Por exemplo, é possível esperar 
que uma câmera digital com uma placa de aquisição de 


Tabela 2.1 Número de bits de armazenamento para vários valores de Ne k. L é o número de níveis de intensidade. 
NIk 1(L=2) 2(L=4) 3(L=8) 4(L= 16) 5 (L = 32) 6 (L = 64) 7 (L= 128) 8 (L = 256) 
32 1.024 2.048 3.072 4.096 5.120 6.144 7.168 8.192 
64 4.096 8.192 12.288 16.384 20.480 24.576 28.672 32.768 
128 16.384 32.768 49.152 65.536 81.920 98.304 114.688 131.072 
256 65.536 131.072 196.608 262.144 327.680 393.216 458.752 524.288 
512 262.144 524.288 786.432 1.048.576 1.310.720 1.572.864 1.835.008 2.097.152 
1.024 1.048.576 2.097.152 3.145.728 4.194.304 5.242.880 6.291.456 7.340.032 8.388.608 
2.048 4.194.304 8.388.608 12.582.912 16.777.216 20.971.520 25.165.824 29.369.128 33.554.432 
4.096 16.777.216 33.554.432 50.331.648 67.108.864 83.886.080 100.663.296 117.440.512 134.217.728 
8.192 67.108.864 134.217.728 201.326.592 268.435.456 335.544.320 402.653.184 469.762.048 536.870.912 


imagens CCD de 20 megapixels tenha mais capacidade 
de distinguir detalhes do que uma câmera de 8 megapi- 
xels, presumindo que as duas câmeras sejam equipadas 
com lentes similares e que as imagens de comparação se- 
jam obtidas à mesma distância. 


De forma similar, a resolução de intensidade refere- 
-se à menor variação discernível de nível de intensidade 
na imagem. Temos considerável liberdade de decisão em 
relação ao número de amostras utilizadas para gerar uma 
imagem digital, mas o mesmo não se aplica em relação 
ao número de níveis de intensidade. Com base em algu- 
mas considerações relativas ao hardware, o número de 
níveis de intensidade normalmente é igual a 2*, sendo 
k um número inteiro, como mencionado na seção ante- 
rior. O número mais comum é 8 bits, com 16 bits sendo 
utilizados em algumas aplicações nas quais o realce em 
determinadas faixas de intensidade é necessária. A quan- 
tização de intensidade utilizando 32 bits é rara. Algumas 
vezes, é possível encontrar sistemas capazes de digitalizar 
os níveis de intensidade de uma imagem utilizando 10 ou 
12 bits, mas essas são as exceções, e não a regra. Diferente- 
mente da resolução espacial, que deve se referir a uma uni- 
dade de distância para fazer sentido, é comum se referir 
ao número de bits utilizados para quantizar a intensidade 
como resolução de intensidade. Por exemplo, é comum dizer 
que uma imagem cuja intensidade é quantizada em 256 
níveis tem 8 bits de resolução de intensidade. Pelo fato de 
as variações reais de níveis de intensidade discerníveis em 
uma imagem serem influenciadas não apenas pelo ruído 
e pela saturação, mas também pelos recursos da percep- 
ção humana (veja a Seção 2.1), dizer que uma imagem 
tem 8 bits de resolução de intensidade não é nada mais 
do que uma afirmação referente à capacidade de um sis- 
tema de 8 bits de quantizar a intensidade em incremen- 
tos fixos de 1/256 unidades de amplitude de intensidade. 


Os dois exemplos a seguir ilustram individualmente 
um comparativo dos efeitos do tamanho e da resolução 
de intensidade da imagem em relação aos detalhes dis- 
cerníveis. Mais adiante, nesta seção, discutiremos como 
esses dois parâmetros interagem na determinação da 
qualidade percebida da imagem. 


= 
Exemplo 2.2 Exemplo dos efeitos da redução da 
resolução espacial da imagem. 

A Figura 2.20 mostra os efeitos da redução da reso- 
lução espacial em uma imagem. As imagens das figuras 
2.20(a) a (d) são mostradas em 1.250, 300, 150 e 72 dpi, 
respectivamente. Naturalmente, as imagens de resolução 


Fundamentos da imagem digital 39 


mais baixa são menores do que a original. Por exemplo, o 
tamanho da imagem original é de 3.692 x 2.812 pixels, mas 
a imagem de 72 dpi é uma matriz de tamanho 213 x 162. 
Para facilitar as comparações, todas as imagens menores fo- 
ram ampliadas (zoom) de volta ao tamanho original (o méto- 
do utilizado para o redimensionamento é discutido na Seção 
2.4.4). Isso de certa forma equivale a “se aproximar” das 
imagens menores para fazer afirmações comparativas sobre 
os detalhes visíveis. 


Observamos algumas pequenas diferenças visuais en- 
tre as figuras 2.20(a) e (b), sendo que a mais perceptível é 
uma ligeira distorção no ponteiro grande preto. Na maior 
parte, contudo, a Figura 2.20(b) é relativamente aceitável. 
Com efeito, 300 dpi é a mínima resolução espacial típica de 
imagem utilizada na publicação de livros, de forma que não 
se esperaria ver muita diferença aqui. A Figura 2.20(c) co- 
meça a mostrar uma degradação visível (veja, por exemplo, 
as bordas arredondadas do cronômetro e o pequeno pon- 
teiro apontando para o número 60 no lado direito). A Fi- 
gura 2.20(d) mostra uma degradação visível na maioria dos 
elementos da imagem. Como discutiremos na Seção 4.5.4, 
ao imprimir em resoluções tão baixas, as editoras e indus- 
trias gráficas utilizam uma série de “truques” (como variar 
o tamanho dos pixels localmente) para produzir resultados 
muito melhores do que os da Figura 2.20(d). Além disso, 
como mostraremos na Seção 2.4.4, é possível melhorar os 
resultados da Figura 2.20 escolhendo um método de inter- 
polação para ser utilizado. 
E 


= 
Exemplo 2.3 Efeitos típicos da variação do número de 
níveis de intensidade em uma imagem digital. 

Neste exemplo, mantemos constante o número de 
amostras e reduzimos o número de níveis de cinza (intensi- 
dade) de 256 a 2, em potências de 2 com números inteiros. 
A Figura 2.21(a) é uma imagem de projeção de tomogra- 
fia computadorizada (CT) de 452 x 374 pixels, exibida com 
k = 8 (256 níveis de cinza). Imagens como essas são obtidas 
fixando a fonte de raios X em uma posição e produzindo, des- 
sa forma, uma imagem 2-D em qualquer direção desejada. 
As imagens de projeção são utilizadas como guias para con- 
figurar os parâmetros de um scanner de CT, incluindo a in- 
clinação, o número de fatias e o intervalo. 


As figuras 2.21(b) a (h) foram obtidas reduzindo o nú- 
mero de bits de k= 7 a k= 1 enquanto o tamanho da imagem 
foi mantido constante em 452 x 374 pixels. As imagens de 
256, 128 e 64 níveis são visualmente idênticas para todas as 
aplicações práticas. A imagem de 32 níveis mostrada na Fi- 
gura 2.21(d), entretanto, apresenta uma série imperceptível 
de pequenos sulcos em áreas de intensidade constante ou 
praticamente constante (particularmente no crânio). Esse 
efeito, causado pela utilização de um número insuficiente 
de níveis de intensidade em áreas suaves de uma imagem 
digital, é chamado de falso contorno, expressão que se deve 
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Figura 2.20 Efeitos típicos da redução da resolução espacial. Imagens mostradas em: (a) 1.250 dpi, (b) 300 dpi, (c) 150 dpi e (d) 72 dpi. Os 
quadros foram acrescentados para melhor visualização. Eles não fazem parte dos dados. 


ao fato de os sulcos se parecerem com contornos topográfi 
cos em um mapa. O falso contorno costuma ser bastante visí- 
vel em imagens exibidas utilizando 16 níveis ou menos níveis 
de intensidade uniformemente espaçados, como mostram as 
imagens das figuras 2.21(e) a (h). 

Como uma regra bastante aproximada e presumindo, 
por conveniência, potências inteiras de 2, imagens de ta- 
manho 256 x 256 pixels com 64 níveis de intensidade e 
impressas em um formato de tamanho 5 x 5 cm são prati- 
camente as imagens de menor resolução espacial e de inten- 
sidade que é possível se obter razoavelmente livres de falso 
contorno e do efeito “quadriculado” na amostragem. 


Os resultados nos exemplos 2.2 e 2.3 ilustram os efei- 
tos produzidos sobre a qualidade de imagem variando N e 


k independentemente. No entanto, esses resultados só res- 
pondem parcialmente à questão de como a variação de N e 
k afeta as imagens, porque ainda não levamos em conside- 
ração nenhum relacionamento que possa existir entre es- 
ses dois parâmetros. Um estudo preliminar conduzido por 
Huang [1965] tentou quantificar experimentalmente os 
efeitos sobre a qualidade da imagem produzidos por meio 
da variação simultânea de N e k. O experimento consistiu 
em uma série de testes subjetivos. Foram utilizadas imagens 
similares às mostradas na Figura 2.22. A face da mulher é 
representativa de imagens com relativamente poucos de- 
talhes; a imagem do cinegrafista contém uma quantidade 
intermediária de detalhes; e a fotografia da multidão con- 
tém, em comparação, uma grande quantidade de detalhes. 
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Figura 2.21 


(a) Imagem de 452 x374 com 256 níveis de cinza (intensidade). (b)-(d) Imagem exibida em 128, 64 e 32 níveis de cinza enquanto 


o tamanho da imagem é mantido constante. (e)-(h) Imagem exibida em 16, 8, 4 e 2 níveis de cinza. (Cortesia original do Dr. David R. Pickens, 
Departamento de Radiologia e Ciências Radiológicas, Centro Médico da Universidade de Vanderbilt.) 


Grupos desses três tipos de imagens foram gerados 
por meio da variação de N e k, e solicitou-se que os ob- 
servadores as classificassem de acordo com sua qualida- 
de subjetiva. Os resultados foram resumidos na forma de 
curvas de isopreferência no plano Nk. (A Figura 2.23 mostra 
curvas de isopreferência média representativas das cur- 
vas correspondentes às imagens da Figura 2.22.) Cada 
ponto do plano Nk representa uma imagem com valores 
de N e k iguais às coordenadas desse ponto. Os pontos 


na curva de isopreferência correspondem a imagens de 
mesma qualidade subjetiva. Durante os experimentos, 
descobriu-se que as curvas de isopreferência tendiam a se 
deslocar para a direita e para cima, mas suas formas em 
cada uma das três categorias de imagem eram similares 
às da Figura 2.23. Esse não é um resultado inesperado, já 
que um deslocamento para cima e para direita nas curvas 
significa simplesmente valores maiores de N e k, o que 
implica uma melhor qualidade de imagem. 


Figura 2.22 


(a) Imagem com baixo nível de detalhes. (b) Imagem com nível médio de detalhes. (c) Imagem com uma quantidade relativamente 


grande de detalhes. (Imagem (b) cortesia do Instituto de Tecnologia de Massachusetts.) 
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Figura 2.23 Curvas de isopreferência típicas para os três tipos de 
imagens da Figura 2.22. 


O principal ponto de interesse no contexto desta 
discussão é que as curvas de isopreferência tendem a se 
tornar mais verticais à medida que os detalhes da imagem 
aumentam. Esse resultado sugere que, para imagens com 
um grande número de detalhes, só alguns poucos níveis 
de intensidade podem ser necessários. Por exemplo, a 
curva de isopreferência da Figura 2.23 correspondente à 
multidão é praticamente vertical. Isso indica que, para 
um valor fixo de N, a qualidade percebida desse tipo de 
imagem é praticamente independente do número de ní- 
veis de intensidade utilizados (para a faixa de níveis de 
cinza mostrada na Figura 2.23). Também é interessante 
notar que a qualidade percebida nas outras duas catego- 
rias de imagem permaneceu a mesma em alguns interva- 
los nos quais o número de amostras foi aumentado, mas 
o número de níveis de intensidade na verdade diminuiu. 
A razão mais provável para esse resultado é que uma 
redução de k tende a aumentar o contraste aparente, 
um efeito visual que os humanos muitas vezes percebem 
como uma melhoria na qualidade de uma imagem. 


2.4.4 Interpolação de imagens 


A interpolação é uma ferramenta básica utilizada 
extensivamente em tarefas como ampliação, redução, ro- 
tação e correções geométricas. Nosso principal objetivo 
nesta seção é apresentar a interpolação e aplicá-la ao re- 
dimensionamento de imagens (redução e ampliação), que 
são basicamente métodos de reamostragem de imagens. As 
utilizações da interpolação em aplicações como rotação e 
correções geométricas serão discutidas na Seção 2.6.5. Re- 


tomaremos esse tópico também no Capítulo 4, quando dis- 
cutiremos a reamostragem de imagens em mais detalhes. 


Essencialmente, a interpolação é o processo que uti- 
liza dados conhecidos para estimar valores em pontos 
desconhecidos. Damos início à discussão desse tópico 
com um exemplo simples. Suponha que uma imagem de 
tamanho 500 x 500 pixels deva ser ampliada uma vez e 
meia, resultando em uma imagem de 750 x 750 pixels 
(ampliação de 1,5 x). Uma maneira simples de visuali- 
zar a ampliação é criar uma grade imaginária 750 x 750 
com o mesmo espaçamento de pixels da imagem original 
e, então, reduzi-la de forma que se encaixe exatamente 
sobre a imagem original. Obviamente, o espaçamento 
de pixels na grade 750 x 750 após a redução será me- 
nor que o espaçamento de pixels na imagem original. 
Para realizar a atribuição de nível de intensidade para os 
pontos da imagem sobreposta, procuramos o pixel mais 
próximo na imagem original e atribuímos a intensidade 
desse pixel ao novo pixel na grade 750 x 750 reduzida. 
Quando terminamos de atribuir as intensidades a todos 
os pontos da grade sobreposta, nós a expandimos para o 
tamanho original a fim de obter a imagem ampliada. 


O método que acabamos de discutir é chamado de 
interpolação por vizinho mais próximo porque atribui a cada 
nova posição a intensidade de seu vizinho mais próximo 
na imagem original (as vizinhanças de pixels serão des- 
critas formalmente na Seção 2.5). Esse método é simples, 
mas, como mostraremos mais adiante nesta seção, tem 
a tendência de produzir artefatos indesejáveis na ima- 
gem, como uma grande distorção nas bordas retas. Por 
essa razão, ela é pouco utilizada na prática. Uma abor- 
dagem mais apropriada é a interpolação bilinear, na qual 
utilizamos os quatro vizinhos mais próximos para estimar 
a intensidade de uma dada posição. Digamos que (x, y) 
expresse as coordenadas da posição na qual queremos 
atribuir um valor de intensidade (pense nela como um 
ponto da grade descrita anteriormente), e que v(x, y) ex- 
presse o valor da intensidade. Para a interpolação biline- 
ar’ o valor atribuído é obtido utilizando a equação: 


v(x, y) = ax + by + cxy + d (2.4-6) 


onde os quatro coeficientes são determinados a partir 
das quatro equações de quatro incógnitas que podem ser 
escritas utilizando os quatro vizinhos mais próximos do 
ponto (x, y). Como veremos em breve, a interpolação bi- 


Ao contrário do que o nome sugere, observe que a interpolação 
bilinear não é linear em virtude do termo xy. 


linear proporciona resultados muito melhores do que a 
interpolação por vizinho mais próximo, com um peque- 
no aumento de custo computacional. 

O próximo nível de complexidade é a interpolação 
bicúbica, que inclui os 16 vizinhos mais próximos de um 
ponto. O valor da intensidade atribuído ao ponto (x, y) é 
obtido utilizando a equação: 


vix,y) = 55 diayx'y! (2.4-7) 
roar 


ll 
© 


onde os 16 coeficientes são determinados a partir das 16 
equações de 16 incógnitas que podem ser escritas uti- 
lizando os 16 vizinhos mais próximos do ponto (x, y). 
Observe que a Equação 2.4-7 tem sua forma reduzida 
à Equação 2.4-6 se os limites de ambos os somatórios 
da equação anterior forem de 0 a 1. Em geral, a inter- 
polação bicúbica é melhor na preservação de detalhes 
finos em comparação com a interpolação bilinear. A in- 
terpolação bicúbica é o padrão utilizado em programas 
comerciais de edição de imagens, como o Adobe Pho- 
toshop e o Corel Photopaint. 


Fundamentos da imagem digital 43 


E 
Exemplo 2.4 Comparação dos métodos de interpolação 
para a redução e a ampliação de imagens. 


A Figura 2.24(a) mostra a mesma imagem da Figura 
2.20(d), que foi obtida reduzindo a resolução da imagem 
de 1.250 dpi da Figura 2.20(a) para 72 dpi (o tamanho foi 
reduzido do tamanho original de 3.692 x 2.812 para 213 x 
162 pixels) e depois ampliando a imagem reduzida de volta 
a seu tamanho original. Para gerar a Figura 2.20(d), utili- 
zamos a interpolação por vizinho mais próximo tanto para 
reduzir quanto para ampliar a imagem. Como observado 
anteriormente, o resultado da Figura 2.24(a) é relativamen- 
te insatisfatório. As figuras 2.24(b) e (c) são os resultados 
da repetição do mesmo procedimento, mas desta vez utili- 
zando, respectivamente, a interpolação bilinear e bicúbica 
tanto para a redução quanto para a ampliação. O resultado 
obtido pela utilização da interpolação bilinear representa 
uma melhoria significativa em relação à interpolação por 
vizinho mais próximo. O resultado da interpolação bicúbica 
é ligeiramente mais nítido que a imagem bilinear. A Figura 
2.24(d) mostra a mesma imagem que a Figura 2.20(c), que 
foi obtida utilizando a interpolação por vizinho mais próxi- 
mo tanto para a redução quanto para a ampliação. Comen- 
tamos na discussão dessa figura que a redução da resolução 


Figura 2.24 


(a) Imagem com resolução reduzida para 72 dpi e tamanho ampliado de volta ao original (3.692 x 2.812 pixels) utilizando a interpola- 


ção por vizinho mais próximo. A figura mostra a mesma imagem que a Figura 2.20(d). (b) Imagem reduzida e ampliada utilizando a interpolação bili- 
near. (c) O mesmo que (b), mas utilizando a interpolação bicúbica. (d)-(f) Mesma sequência, mas reduzindo a resolução para 150 dpi em vez de 72 dpi 
(A Figura 2.24(d) é a mesma que a Figura 2.20(c)). Compare as figuras 2.24(e) e (f), especialmente a última, com a imagem original na Figura 2.20(a). 


44 Processamento digital de imagens 


para 150 dpi começou a mostrar degradações na imagem. 
As figuras 2.24(e) e (f) mostram os resultados da utilização 
da interpolação bilinear e bicúbica, respectivamente, para 
reduzir e ampliar essa imagem. Apesar de uma redução de 
resolução de 1.250 a 150 dpi, essas duas últimas imagens 
se comparam de forma razoavelmente favorável com a ori- 
ginal, demonstrando mais uma vez o poder desses dois métodos 
de interpolação. Como no caso anterior, a interpolação bicú- 
bica gerou resultados ligeiramente mais nítidos. 

E 


É possível utilizar mais vizinhos na interpolação e 
existem técnicas mais complexas, como a utilização de 
splines e wavelets, que, em alguns casos, podem gerar resul- 
tados melhores do que os métodos que acabamos de discu- 
tir. Apesar de a preservação dos detalhes finos ser um fator 
excepcionalmente importante na geração de imagens 
para gráficos 3-D (Watt [1993], Shirley [2002]) e no pro- 
cessamento de imagens médicas (Lehmann et al. [1999]), 
o custo computacional adicional raramente se justifica 
para o processamento digital de imagens de uso geral, no 
qual a interpolação bilinear ou bicúbica normalmente são 
os métodos preferidos. 


2.5 Alguns relacionamentos básicos 
entre pixels 


Nesta seção, levaremos em consideração várias re- 
lações importantes entre pixels em uma imagem digital. 
Como mencionado anteriormente, uma imagem é ex- 
pressa por f(x, y). Nesta seção, ao nos referirmos a um pi- 
xel particular, utilizaremos letras minúsculas, como p e q. 


2.5.1 Vizinhos de um pixel 


Um pixel p na coordenada (x, y) tem quatro vizinhos 
horizontais e verticais cujas coordenadas são dadas por: 


(x +1, y), (x-1, y), (x,y + 1), (x, y-1) 


Esse conjunto de pixels, chamado de vizinhanca-4 
de p, é expresso por N,(p). Cada pixel é uma unidade de 
distancia de (x, y), e alguns vizinhos de p ficarão para fora 
da imagem digital se (x, y) estiver na borda da imagem. 
Lidaremos com esta questao no Capitulo 3. 


Os quatro vizinhos diagonais de p têm coordenadas: 
(x+1,y +1), (x«+1Ly-1), (x-1,y+1), (x-1,y-1) 


que sao expressas por N, (p). Esses pontos, junto com a 
vizinhança-4, são chamados de vizinhança-8 de p, expres- 
sos por N,(p). Como no caso anterior, alguns vizinhos em 
N (p) e N,(p) ficarão para fora da imagem se (x, y) se loca- 
lizar na borda da imagem. 


2.5.2 Adjacência, conectividade, regiões e 
fronteiras 


Expressamos por V o conjunto de valores de in- 
tensidade utilizados para definir a adjacência. Em uma 
imagem binária, V = (1), se estivermos nos referindo à 
adjacência de pixels com valor igual a 1. Em uma imagem 
de escala de cinza, a ideia é a mesma, mas o conjunto V 
normalmente contém mais elementos. Por exemplo, na 
adjacência de pixels com uma variação de possíveis valo- 
res de nível de cinza de 0 a 255, o conjunto V poderia ser 
qualquer subconjunto desses 256 valores. Consideramos 
três tipos de adjacência:” 


(a) Adjacência-4. Dois pixels p e q com valores perten- 
cendo a V são adjacentes-4 se q estiver no conjunto 
N,(P). 

(b) Adjacéncia-8. Dois pixels p e q com valores perten- 
cendo a V sao adjacentes-8 se q estiver no conjunto 
N,(P)- 

(c) Adjacéncia-m (adjacência mista). Dois pixels p e q 
com valores pertencendo a V são adjacentes-m se 

(i) q estiver em N,(p), ou 


(ii) q estiver em N,(p) e o conjunto N,(p) N N,(q) 
não contiver nenhum pixel cujos valores per- 
tençam a V. 


A adjacência mista é uma modificação da adjacên- 
cia-8. Ela foi criada para eliminar as ambiguidades que 
muitas vezes surgem com a utilização da adjacência-8. 
Por exemplo, considere o arranjo de pixels mostrado na 
Figura 2.25(a) para V = (1). Os três pixels da parte supe- 
rior da Figura 2.25(b) mostram uma adjacência-8 múltipla 
(ambígua), como indica as linhas tracejadas. Essa am- 
biguidade é eliminada utilizando a adjacência-m, como 
mostra a Figura 2.25(c). 


Um caminho (ou curva) digital do pixel p com coor- 
denadas (x, y) ao pixel q com coordenadas (s, t) é uma 
sequência de pixels distintos com coordenadas: 


(yy Yo) yy Vo «ory Oy Ya) 
onde (x, Ya) = (x, Y) (x, Y,a) = (8, t), e os pixels (x, y,) e 
(x, );.,) são adjacentes para 1 <i < n. Nesse caso, né 0 
comprimento do caminho. Se (x, Y,) = (X, Y,), 0 caminho é 
fechado. Podemos definir caminhos —4, -8 ou —m, depen- 
dendo do tipo da adjacência especificada. Por exemplo, 
os caminhos mostrados na Figura 2.25(b) entre os pontos 


* Utilizamos os símbolos N e U, para expressar interseção e união, 
respectivamente. Dados os conjuntos A e B, lembre-se que a inter- 
seção entre eles equivale ao conjunto de elementos pertencentes 
tanto a A quanto a B. A união desses dois conjuntos é o conjunto 
de elementos que pertencem a 4, a B ou a ambos. Discutiremos 
os conjuntos em mais detalhes na Seção 2.6.4. 


ag 1 1 b 0 1--1 co 1--1 
010 0 170 010 
001 001 001 

di 11 e0 0000 F000 
10 1)R 01100 010 
010 01100 010 
0 Oui 0 14131 0 0 1 0 
LA TR 01110 010 
111 00000 000 

Figura 2.25 (a) Um arranjo de pixels. (b) Pixels que são adjacentes-8 


(a adjacência é mostrada em linhas tracejadas; observe a ambiguida- 
de). (c) adjacéncia-m. (d) Duas regiões (de 1s) que são adjacentes se 
a adjacência-8 for utilizada. (e) O ponto circulado é parte da fronteira 
dos pixels de valor 1 somente se a adjacência-8 entre a região e o fun- 
do for utilizada. (f) A fronteira interna da região de valor 1 não forma 
um caminho fechado, mas sua fronteira externa, sim. 


superior direito e inferior direito são caminhos -8 e o ca- 
minho na Figura 2.25(c) é um caminho-m. 


Com S representando um subconjunto de pixels em 
uma imagem, dizemos que dois pixels p e q são conexos em S 
se houver um caminho entre eles consistindo inteiramente 
de pixels em S. Para qualquer pixel p em S, o conjunto de 
pixels que são conectados a ele em S é chamado de um 
componente conexo de S. Se existir apenas um componente 
conectado, o conjunto S é chamado de um conjunto conexo. 


Com R representando um subconjunto de pixels em 
uma imagem, chamamos de R uma região da imagem se 
R for um conjunto conexo. Dizemos que duas regiões, R, 
e R, são consideradas adjacentes se sua união formar um 
conjunto conexo. Dizemos que as regiões que não são 
adjacentes são disjuntas. Consideramos a adjacência-4 e 
-8 ao nos referirmos a regiões. Para que nossa definição 
faça sentido, o tipo de adjacência utilizada deve ser espe- 
cificado. Por exemplo, as duas regiões (de 1 s) na Figura 
2.25(d) são adjacentes somente se a adjacência-8 for utili- 
zada (de acordo com a definição apresentada no parágrafo 
anterior, não existe um caminho-4 entre as duas regiões, 
de forma que sua união não é um conjunto conexo). 


Suponha que uma imagem contenha K regiões 
disjuntas, R, k = 1, 2,..., K, nenhuma das quais toca a 
borda da imagem.” Expressamos por R a união de todas 
as regiões K e por (R,);, seu complemento (lembre que 
o complemento de um conjunto S é o conjunto de pontos 


Usamos essa premissa para evitar ter de lidar com casos especiais. 
Isso é feito sem perda de generalização porque, se uma ou mais 
regiões tocarem a fronteira de uma imagem, podemos simples- 
mente preencher a imagem com uma borda de 1 pixel de largura 
com valores do fundo. 
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que não estão em S). Chamamos todos os pontos em R, 
de frente (foreground) e todos os pontos em (R )de fundo 
(background) da imagem. 


A fronteira (também chamada de borda ou contor- 
no) de uma região R é o conjunto de pontos adjacentes 
aos pontos do complemento de R. Dito de outra forma, a 
fronteira de uma região é o conjunto de pixels da região 
que tem pelo menos um vizinho no fundo da imagem. 
Mais uma vez, devemos especificar a conectividade sendo 
utilizada para definir a adjacência. Por exemplo, o pon- 
to circulado na Figura 2.25(e) não pertence à fronteira 
da região de valor 1 se a conectividade-4 for utilizada en- 
tre a região e seu fundo. Como regra, a adjacência entre 
pontos em uma região e seu fundo é definida em termos 
de conectividade-8 para lidar com situações como essas. 


A definição anterior algumas vezes é chamada de 
contorno interno da região, para distingui-la do contorno ex- 
terno, que é o contorno correspondente no fundo. Essa 
distinção é importante no desenvolvimento de algoritmos 
chamados de seguidores de contorno (border following). 
Esses algoritmos costumam ser formulados para seguir o 
contorno externo de uma região de modo a garantir que 
o resultado formará um caminho fechado. Por exemplo, o 
contorno interno da região de valor 1 da Figura 2.25(f) 
é a própria região. Esse contorno não satisfaz a definição 
de um caminho fechado apresentada anteriormente. Por 
outro lado, o contorno externo da região acaba formando 
um caminho fechado ao redor dessa região. 


Se R for a imagem inteira (que, lembramos, é um 
conjunto retangular de pixels), sua fronteira será defini- 
da como o conjunto de pixels da primeira e última linha 
e da primeira e última coluna da imagem. Essa defini- 
ção adicional é necessária porque uma imagem não tem 
vizinhos além de sua fronteira. Normalmente, quando 
nos referimos a uma região, estamos nos referindo a um 
subconjunto de uma imagem e quaisquer pixels na fron- 
teira da região que coincidirem com a fronteira da imagem 
são incluídos implicitamente como parte da fronteira 
da região. 

O conceito de horda é encontrado com frequên- 
cia em discussões sobre regiões e fronteiras. No entanto, 
existe uma importante diferença entre esses conceitos. A 
fronteira de uma região finita forma um caminho fechado 
e, assim, é um conceito “global”. Como discutiremos em 
detalhes no Capítulo 10, as bordas são formadas por pixels 
com valores cujas derivadas excedem um limiar pré-defi- 
nido. Dessa maneira, a ideia de uma borda é um conceito 
“local” baseado em uma medida de descontinuidade de 
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nível de intensidade em um ponto. É possível ligar os 
pontos da borda em segmentos de borda e, algumas ve- 
zes, esses segmentos são ligados de modo a corresponder 
a uma fronteira, mas nem sempre esse é o caso. A única 
exceção na qual as bordas e as fronteiras se correspondem 
é em imagens binárias. Dependendo do tipo da conectivi- 
dade e dos operadores de borda utilizados (discutiremos 
esses fatores no Capítulo 10), a borda extraída de uma 
região binária será a mesma que a fronteira da região. 
Isso é intuitivo. Conceitualmente, até chegarmos ao 
Capítulo 10, é útil pensar nas bordas como descontinuidade 
de intensidade e nas fronteiras como caminhos fechados. 


2.5.3 Medidas de distância 


Para os pixels p, q e z, com coordenadas (x, y), (s, t) 
e (v, w), respectivamente, D é uma função distância ou 
medida de distância se 


(a) Dip, 9)20 (Dip, q)=0sep=q), 
(b) D(p, q) = D(q, p) e 
(c) D(p, z) < D(p, q) + D(q, 2). 
A distancia euclidiana entre p e q é definida como: 
Delp, 4) = [œ -s + y - 1?) (2.5-1) 


Para essa medida de distancia, os pixels que pos- 
suem distância de (x, y) menor ou igual a um valor r são os 
pontos contidos em um disco de raio r centrado em (x, y). 


A distância D, (chamada de distância city block) entre 
p e q é definida como: 


D4(p,q) = |x — s| + |y — t| (2.5-2) 


Neste caso, os pixels que tém uma distancia D, de 
(x, y) menor ou igual a um valor r formam um losan- 
go centrado em (x, y). Por exemplo, os pixels com uma 
distância D, < 2 de (x, y) (o ponto central) formam os 
seguintes contornos de distancia constante: 


2 
2 1 2 
210 1 2 
2 1 2 
2 


Os pixels com D,= 1 sao os vizinhos-4 de (x, y). 
A distancia D, (chamada de distancia chessboard) entre 
p e q é definida como: 


D,(p, q) = máx (lx — sl, ly — tl) (2.5-3) 


Neste caso, os pixels que têm uma distância D, de 
(x, y) menor ou igual a um valor r formam um quadra- 


do centrado em (x, y). Por exemplo, os pixels com uma 
distância D, < 2 de (x, y) (o ponto central) formam os 
seguintes contornos de distância constante: 


2222 


N N NNN 


2111 
2101 
2111 
222 2 


Os pixels com D, = 1 são os vizinhos-8 de (x, y). 


Observe que as distâncias D, e D, entre p e q são in- 
dependentes de quaisquer caminhos que possam existir 
entre os pontos porque essas distâncias envolvem apenas 
as coordenadas dos pontos. Se optarmos por considerar a 
adjacência-m, contudo, a distância D entre dois pontos 
é definida como o caminho-m mais curto entre os pon- 
tos. Nesse caso, a distância entre dois pixels dependerá 
dos valores dos pixels ao longo do caminho, bem como dos 
valores dos pixels vizinhos. Por exemplo, para o arranjo 
de pixels mostrado a seguir, assuma que p, p, e p, tenham 
valor 1 e que p, e p, possam ter valor 0 ou 1: 


Ps P, 
Db, Py 
p 


Suponha que consideremos que o valor da adjacên- 
cia de pixels seja igual a 1 (isto é, V = {1}). Se p, ep, são 
0, a extensão do caminho-m mais curto (a distância D ) 
entre p e p, é igual a 2. Se p, é 1, então p, e p não serão 
mais adjacentes-m (veja a definição da adjacência-m) e a 
extensão do caminho-m mais curto passa a ser 3 (o cami- 
nho passa pelos pontos pp,p,p,). O mesmo ocorre se p, for 
1 (e p, for 0); então, a extensão do caminho-m mais cur- 
to também é 3. Finalmente, se tanto p, quanto p, forem 
iguais a 1, a extensão do caminho-m mais curto entre p e 
p, é igual a 4. Nesse caso, o caminho passa pela sequência 
de pontos pp PPP, 


2.6 Uma introdução às ferramentas 
matemáticas utilizadas no 
processamento digital de imagens” 


Esta seção tem dois objetivos principais: (1) apresentar 
as várias ferramentas matemáticas que utilizamos ao longo 


* Antes de continuar, pode ser útil para você baixar e estudar o ma- 
terial de revisão disponível na seção de Tutoriais no site do livro. 
A revisão cobre o material introdutório sobre matrizes e vetores, 
sistemas lineares, teoria de conjuntos e probabilidade. 


deste livro; e (2) ajudá-lo a começar a ter uma “ideia” de 
como essas ferramentas são utilizadas aplicando-as a uma 
série de tarefas básicas de processamento de imagens, al- 
gumas das quais serão utilizadas várias vezes em discussões 
subsequentes. Expandiremos o escopo das ferramentas e 
suas aplicações quando necessário nos capítulos a seguir. 


2.6.1 Operações de arranjos matriciais versus 
matrizes 


Uma operação de arranjo matricial envolvendo uma 
ou mais imagens é realizada pixel a pixel. Mencionamos 
anteriormente, neste capítulo, que as imagens podem ser 
vistas de modo equivalente como matrizes. De fato, há 
muitas situações nas quais as operações entre as imagens 
são realizadas utilizando a teoria das matrizes (veja a Seção 
2.6.6). É por essa razão que deve ser feita uma distinção 
clara entre operações de arranjos matriciais e matrizes. Por 
exemplo, vejamos as seguintes imagens 2 x 2: 


ay dz bh by 


421 432 E ba by 


O produto do arranjo matricial dessas duas imagens é: 


41; Ar || bi by o amb Abi 
do an || by ba E azb21  a22b22 


Por outro lado, o produto da matriz é dado por: 


am 412 || bi by 
ao 422 || ba by 


aiibi + aba, ambio + aibaz 


abr + a22b2) asia + a22b22 


Utilizaremos as operações de arranjo matricial ao 
longo deste livro, a não ser que seja especificado de outra 
forma. Por exemplo, quando nos referimos a elevar uma 
imagem a uma potência, queremos dizer que cada pixel 
individual é elevado a essa potência; quando nos referi- 
mos a dividir uma imagem por outra, queremos dizer que 
a divisão é feita entre os pares de pixels correspondentes, 
e assim por diante. 


2.6.2 Operações lineares versus não lineares 


Uma das classificações mais importantes de um mé- 
todo de processamento de imagens é em linear ou não linear. 
Considere um operador geral, H, que produza uma imagem 
de saída, g(x, y), para uma dada imagem de entrada, f(x, y): 


Hif, y)] = g(x, y) (2.6-1) 
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Diz-se que H é um operador linear se 
Hlaifilx,y) + ajfjxy)] 
= aH |filx,y)] + aE rey] 


= digi(X,y) + ajgj(x, y) 
onde a, a, fix, y) e f(x, y) são, respectivamente, constan- 
tes e imagens arbitrárias (do mesmo tamanho). A Equação 
2.6-2 indica que a saída de uma operação linear em decor- 
rência da soma de duas entradas é o mesmo que realizar 
essa operação para as entradas individualmente e depois 
somar os resultados. Além disso, a saída de uma operação 
linear da multiplicação de uma constante por uma entra- 
da é igual à saída da operação em virtude da entrada origi- 
nal multiplicada por essa constante. A primeira propriedade 
é chamada de propriedade de aditividade e a segunda é 
chamada de propriedade da homogeneidade. 


(2.6-2) 


A título de um exemplo simples, suponha que H 
seja o operador de somatória, ©; isto é, que a função 
desse operador seja simplesmente somar suas entradas. 
Para testar a linearidade, começamos com o lado esquer- 
do da Equação 2.6-2 e tentamos provar que ele é igual 
ao lado direito: 


Daifi(x,y) + aher] = X a; fix y) +X a fixy) 


=a) Ņ fixy) +4) Yy) 


=a;gi (X, yY) + ajg; (X,Y) 


sendo que o primeiro passo resulta do fato de que o so- 
matório é distributivo. Dessa forma, uma expansão do 
lado esquerdo é igual ao lado direito da Equação 2.6-2 e 
concluímos que o operador de soma é linear. 


Por outro lado, considere a operação máx, cuja fun- 
ção é calcular o valor máximo dos pixels em uma ima- 
gem. Para nossos propósitos aqui, a forma mais simples 
de provar que esse operador é não linear é encontrar um 
exemplo que não passe no teste da Equação 2.6-2. Con- 
sideremos as duas imagens a seguir 


0 2 6 5 
= e = 
Sir | y CPR 
e suponha que a, = 1 e a, = — 1. Para testar a linearida- 


de, mais uma vez começamos com o lado esquerdo da 
Equação 2.6-2: 


* Esses são somatórios de arranjo, não as somas de todos os ele- 
mentos das imagens. Dessa forma, a soma de uma única imagem 
é a própria imagem. 
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máxi( O 2 l+ & É 
2 3 47 
= máx Oe —2 
-2 —4 


Passando em seguida para o lado direto, temos 


6 5 
4 7 


=3+(-l)7=-4 


+ (— máx 


Os lados esquerdo e direito da Equação 2.6-2 não são 
iguais neste caso, logo provamos que em geral o operador 
máx é não linear. 


Como veremos nos três capítulos a seguir, espe- 
cialmente nos capítulos 4 e 5, as operações lineares são 
extremamente importantes porque se baseiam em um 
grande volume de resultados teóricos e práticos aplicáveis 
ao processamento de imagens. Os sistemas não lineares 
não são tão bem compreendidos, de forma que seu es- 
copo de aplicação é mais limitado. No entanto, veremos 
nos capítulos seguintes vários operadores não lineares de 
processamento de imagens cujo desempenho excede sig- 
nificativamente o que pode ser realizado pelos operado- 
res lineares correspondentes. 


2.6.3 Operações aritméticas 


As operações aritméticas entre imagens são opera- 
ções de arranjo matricial que, como discutimos na Seção 
2.6.1, significam que as operações aritméticas são reali- 
zadas entre pares de pixels correspondentes. As quatro 
operações aritméticas são expressas como 


s(x, y) = fix, y) + g(x, y) 
d(x, y) = fix, y) — 9(x, Y) 
p(x, y) = f(x, y) x g(x, y) 
v(x, y) = f(x, y) + 9(x, y) (2.6-3) 


Sabe-se que as operações são realizadas entre pa- 
res de pixels correspondentes em fe g para x = 0, 1, 2,..., 
M-ley=0,1,2,.. N- 1, sendo Me N, respectivamen- 
te, os tamanhos de linha e coluna das imagens. Claramente, 
s, d, p e v também são imagens de tamanho M x N. Observe 
que a aritmética de imagem da forma que acabamos de de- 
finir envolve imagens do mesmo tamanho. Os exemplos a 
seguir indicam o importante papel exercido pelas operações 
aritméticas no processamento digital de imagens. 


= 
Exemplo 2.5 Adição (para cálculo da média) de imagens 
ruidosas para a redução de ruídos.” 


Com g(x, y) expressando uma imagem corrompida for- 
mada pela adição de ruído, n(x, y), a uma imagem sem ruído 
fix, y), isto é: 


g(x,y) = fixy) + ny) (2.6-4) 


onde assumimos que, para cada par de coordenadas (x, y), O 
ruído não tem correlação” e tem valor médio zero. O objetivo 
do procedimento a seguir é reduzir o ruído por meio da adi- 
ção de um conjunto de imagens ruidosas, (9,(x, y)). Esta é uma 
técnica utilizada frequentemente para o realce de imagens. 


Se o ruído satisfizer as condições mencionadas ante- 
riormente, pode ser demonstrado (Exercício 2.20) que, se 
uma imagem g(x,y) for formada pela média de K diferen- 
tes imagens ruidosas: 


o l K 
g(x,y) = y 24: y) (2.6-5) 
i=l 
segue-se que 
E{g(x,y)} = f(x,y) (2.6-6) 
e 
2 = 1 2 
Fey) = Fe Ino) (2.6-7) 
onde E{g(x,y)} é o valor esperado de J, e Oe e Ei 


são, respectivamente, as variâncias de J e m, todas nas coor- 
denadas (x, y). O desvio padrão (raiz quadrada da variância) 
em qualquer ponto da imagem média é 


1 


= 
VK (X,Y) 


As equações 2.6-7 e 2.6-8 indicam que, à medida que K 
aumenta, a variabilidade (medida pela variância ou pelo 
desvio padrão) dos valores de pixels em cada posição (x, 
y) diminui. Como F{g(x,y)}= f(x,y), isso significa que 
g(x,y) se aproxima de f(x,y) à medida que o número de 
imagens ruidosas utilizadas no processo de cálculo da média 
aumenta. Na prática, as imagens 9 (x, y) devem ser registradas 
(alinhadas) para evitar o acréscimo de borramento e outros 
artefatos na imagem de saída. 


zxy) T 


(2.6-8) 


Uma importante aplicação da média de imagens é reali- 
zada no campo da astronomia, no qual a aquisição de imagens 


* As imagens mostradas neste exemplo são de um par de galáxias 
chamado de NGC 3314, capturadas pelo telescópio espacial Hub- 
ble, da Nasa. O NGC 3314 se localiza a cerca de 140 milhões de 
anos-luz da Terra, na direção do hemisfério sul da constelação 
Hydra. As estrelas brilhantes que formam um cata-vento próxi- 
mo ao centro da galáxia central são formadas de gás e poeira 
interestelar. 


“ Lembre-se de que a variância de uma variável aleatória z com 
média m é definida como E[(z— m)?], onde E(:) é o valor esperado 
do argumento. A covariância de duas variáveis aleatórias z, e z é 
definida como E[(z,- m,) (z-m)]. Se as variáveis não têm corre- 


lação, sua covariância é 0. 


em níveis muito baixos de iluminação frequentemente 
provoca ruído de sensores, que faz com que a representação 
por imagens isoladas seja praticamente inútil para a análise. 
A Figura 2.26(a) mostra uma imagem de 8 bits na qual a 
corrupção foi simulada com a adição de ruído gaussiano de 
média zero e desvio padrão de 64 níveis de intensidade. Essa 
imagem, típica de imagens com ruído obtidas em condições 
de baixa iluminação, é inútil para quaisquer objetivos práti- 
cos. As figuras 2.26(b) a (f) mostram os resultados da média 
de 5, 10, 20, 50 e 100 imagens, respectivamente. Vemos que 
o resultado da Figura 2.26(e), obtida com K = 50, é relati- 
vamente limpo. A imagem da Figura 2.26(f), resultante do 
cálculo da média de 100 imagens ruidosas, representa ape- 
nas uma pequena melhoria em relação à imagem da Figura 
2.26(e). 

A adição é uma versão discreta de uma integração 
contínua. Em observações astronômicas, um processo equi- 
valente ao método que acabamos de descrever é utilizar os 
recursos de integração do CCD (veja a Seção 2.3.3) ou sen- 
sores similares para a redução de ruído observando a mesma 
cena por longos períodos. O resfriamento também é utiliza- 
do para reduzir o ruído do sensor. O efeito geral, entretanto, 
é análogo ao cálculo da média de um conjunto de imagens 
digitais com ruído. 
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Exemplo 2.6 Subtração de imagens para realce de 
diferengas. 


Uma aplicação frequente da subtração de imagens é 
no realce de diferencas entre as imagens. Por exemplo, a ima- 
gem da Figura 2.27(b) foi obtida zerando os bits menos sig- 
nificativos de todos os pixels da Figura 2.27(a). Visualmente, 
essas imagens sao exatamente iguais. Contudo, como mos- 
tra a Figura 2.27(c), subtrair uma imagem da outra mostra 
claramente suas diferenças. Valores em preto (0) nessa ima- 
gem de diferença indicam pontos nos quais não há nenhu- 
ma diferença entre as imagens das figuras 2.27(a) e (b). 


Como outro exemplo, analisaremos rapidamente uma 
área das imagens médicas chamada de radiografia em modo 
máscara, uma utilização comercialmente bem-sucedida e ex- 
tremamente benéfica da subtração de imagens.” Considera- 
mos a diferença entre duas imagens da forma: 


g(x, y) = flx, y) -h(x y) (2.6-9) 


Neste caso, h(x, y), a máscara, é uma imagem de raios X 
de uma região do corpo do paciente, capturada por um inten- 
sificador de imagens e uma câmera de TV (em vez de um filme 
de raios X tradicional) localizada na frente de uma fonte de 
raios X. O procedimento consiste em injetar uma substância 
de contraste para raios X na corrente sanguínea do pacien- 
te, capturando uma série de imagens chamada de imagens 


Figura 2.26 (a) Imagem do par de galáxias NGC 3314 corrompida pelo ruído gaussiano aditivo. (b) a (f) Resultados do cálculo da média de 5, 10, 
20, 50 e 100 imagens ruidosas, respectivamente. (Imagem original: cortesia da Nasa.) 


* A detecção de mudanças por meio da subtração de imagens também é utilizada na segmentação de imagens, que analisaremos no Capítulo 10. 
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Figura 2.27 


(a) Imagem em infravermelho da área de Washington, D.C. (b) Imagem obtida zerando o bit menos significativo de todos os pixels 


de (a). (c) Diferença entre as duas imagens ajustada para a faixa [0, 255] para melhor visualização. 


ativas [amostras que são expressas como f(x, y)] da mesma 
região anatômica que A(x, y) e subtraindo a máscara da série 
de imagens ativas recebidas após a injeção do contraste. O 
efeito final da subtração da máscara a partir de cada amostra 
de imagem ativa é que as áreas entre f(x, y) e h(x, y), que são 
diferentes, são exibidas na imagem de saída, g(x, y), como 
detalhes realçados. Como as imagens podem ser capturadas 
em velocidade de TV, esse procedimento basicamente resulta 
em um filme mostrando como a substância de contraste se 
propaga através das várias artérias na área em observação. 


A Figura 2.28(a) mostra uma imagem de raios X (más- 
cara) da parte superior da cabeça de um paciente antes da 
injeção de uma substância à base de iodo (contraste) na cor- 
rente sanguínea, e a Figura 2.28(b) é uma amostra de uma 
imagem ativa obtida depois que o contraste foi injetado. A 
Figura 2.28(c) mostra a diferença entre (a) e (b). Algumas 


Figura 2.28 Angiografia por subtração digital. (a) Imagem máscara. 
(b) Uma imagem ativa. (c) Diferença entre (a) e (b). (d) Imagem da di- 
ferença realçada. (Figuras (a) e (b): cortesia do Instituto de Ciência de 
Imagem, Centro Médico da Universidade de Utrecht, Holanda.) 


estruturas detalhadas do vaso sanguíneo são visíveis nessa 
imagem. A diferença fica clara na Figura 2.28(d), que foi 
obtida realçando o contraste em (c) (discutiremos o realce 
do contraste no próximo capítulo). A Figura 2.28(d) apre- 
senta um “mapa” claro de como a substância de contraste 
se propaga pelos vasos sanguíneos no cérebro do paciente. 
E 


m 
Exemplo 2.7 Utilização da multiplicação e divisão de 
imagens para a correção de sombreamento. 
Uma importante aplicação da multiplicação (e divisão) 
de imagens é a correção de sombreamento. Suponha que um 
sensor de aquisição de imagens produza imagens que pos- 
sam ser modeladas como o produto de uma “imagem perfei- 
ta”, expressa por f(x, y), por uma função de sombreamento 
h(x, y), isto é, g(x, y) = f(x, y)h(x, y). Se h(x, y) for conhecido, 
podemos obter f(x, y) multiplicando a imagem capturada pelo 
inverso de h(x, y) (isto é, dividindo g por h). Se h(x, y) não for 
conhecido, mas o acesso ao sistema de aquisição de imagens 
for possível, podemos obter uma aproximação da função de 
sombreamento obtendo uma imagem de um objeto de in- 
tensidade constante. Quando o sensor não está disponível, 
podemos muitas vezes estimar o padrão de sombreamento 
diretamente da imagem, como veremos na Seção 9.6. A Figu- 
ra 2.29 mostra um exemplo de correção de sombreamento. 


Uma outra utilização comum da multiplicação de 
imagens é no mascaramento, também chamado de região de 
interesse (ROI, de region of interest). O processo, ilustrado na 
Figura 2.30, consiste simplesmente em multiplicar uma de- 
terminada imagem por uma imagem máscara que tem Is 
na ROI e Os em outras regiões. Pode haver mais de uma 
ROI na imagem máscara e a forma da ROI pode ser arbitrá- 
ria, apesar de formatos retangulares serem utilizados com 


mais frequência para facilitar a implementação. 
E 


Antes de concluirmos esta seção, alguns comentá- 
rios sobre a utilização de operações aritméticas em imagens 
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Figura 2.29 Correção de sombreamento. (a) Inagem sombreada de um filamento de tungstênio e suporte gerada por um microscópio eletrônico 
por varredura, ampliada aproximadamente 130 vezes. (b) O padrão de sombreamento. (c) Produto de (a) pelo inverso de (b). (Imagem original: 
cortesia de Michael Shaffer, Departamento de Ciências Geológicas, Universidade de Oregon, Eugene.) 


são apropriados. Na prática, a maioria das imagens é exibi- 
da utilizando 8 bits (mesmo as imagens coloridas de 24 
bits consistem em três canais separados de 8 bits). Dessa 
forma, esperamos que os valores das imagens estejam no 
intervalo de 0 a 255. Quando as imagens são salvas em 
um formato padrão, como TIFF ou JPEG, a conversão para 
esse intervalo é automática. Contudo, o método utilizado 
para a conversão depende do sistema utilizado. Por exemplo, 
os valores da diferença de duas imagens de 8 bits pode 
variar de um mínimo de -255 a um maximo de 255 e os va- 
lores de uma imagem obtida a partir de uma soma podem 
variar de 0 a 510. Muitos aplicativos computacionais, ao 
converter imagens para 8 bits, simplesmente transformam 
todos os valores negativos em 0 e todos os valores que ex- 
cedem esse limite são transformados em 255. Considerando 
uma imagem f, apresentamos abaixo uma metodologia 
que garante que todo intervalo de uma operação aritméti- 
ca entre imagens seja “capturado” em um número fixo de 
bits. Para começar, realizamos a operação: 


f, =f-min(f) (2.6-10) 


a 


Figura 2.30 


o que cria uma imagem cujo valor mínimo é 0. Depois, 
realizamos a operação 


f.= K| f /máx(f )] (2.6-11) 


o que cria uma imagem ajustada, f, cujos valores estão 
no intervalo [0, K]. Ao trabalhar com imagens de 8 bits, 
definir K = 255 nos dá uma imagem ajustada às inten- 
sidades que cobrem toda a escala de 8 bits, de 0 a 255. 
Comentários similares se aplicam a imagens de 16 bits 
ou mais. Essa metodologia pode ser utilizada por todas as 
operações aritméticas. Ao realizar uma divisão, temos o 
requisito adicional de que um número pequeno deve ser 
acrescentado aos pixels da imagem do divisor para evitar 
a divisão por 0. 


2.6.4 Operações com conjuntos e operações lógicas 
Nesta seção, apresentamos brevemente algumas im- 

portantes operações com conjuntos e operações lógicas. 

Também apresentamos o conceito de um conjunto fuzzy. 


(a) Imagem digital de uma radiografia odontológica. (b) Máscara com duas regiões de interesse para isolar dentes com obturações 


(branco corresponde a 1 e preto corresponde a 0). (c) Produto de (a) com (b). 
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Operações básicas com conjuntos 


Seja A um conjunto composto de pares ordenados de 
números reais. Se a = (a,, a,) for um elemento de A, temos 


aca (2.6-12) 
Da mesma forma, se a não for um elemento de A, temos 
agaA (2.6-13) 


O conjunto que não contém elementos é chamado de con- 
junto nulo ou conjunto vazio e é expresso pelo símbolo Ø. 


Um conjunto é especificado pelo conteúdo de duas 
chaves: {-}. Por exemplo, quando escrevemos uma ex- 
pressão da forma C = {wlw = -d, d € D}, queremos dizer 
que o conjunto C é o conjunto de elementos, w, de forma 
que w é formado multiplicando cada um dos elementos 
do conjunto D por -1. Uma forma na qual os conjuntos 
são utilizados em processamento de imagens é fazer com 
que os elementos dos conjuntos sejam coordenadas de pi- 
xels (pares ordenados de números inteiros) representan- 
do regiões (objetos) em uma imagem. 

Se cada elemento de um conjunto 4 também for 
um elemento de um conjunto B, então se diz que 4 é um 
subconjunto de B, expresso como 


ACB (2.6-14) 
A união dos dois conjuntos A e B é expressa por 
C=AUB (2.6-15) 


que é o conjunto de elementos que pertencem ou ao con- 
junto A, ou ao B ou a ambos. De forma similar, a interseção 
de dois conjuntos 4 e B é expressa por 


D=ANB (2.6-16) 


que é o conjunto de elementos que pertencem a ambos 
os conjuntos. Diz-se que dois conjuntos 4 e B são disjun- 
tos ou mutuamente exclusivos se não tiverem elementos em 
comum. Nesse caso: 


ANB=Ø (2.6-17) 


O conjunto universo, U, é o conjunto de todos os ele- 
mentos de uma dada aplicação. Por definição, todos os 
elementos do conjunto em uma dada aplicação pertencem 
ao universo definido para essa aplicação. Por exemplo, 
se você estiver trabalhando com o conjunto de números 
reais, o conjunto universo é a reta real, que contém todos 
os números reais. No processamento de imagens, normal- 
mente definimos o conjunto universo como o retângulo 
que contém todos os pixels de uma imagem. 


O complemento de um conjunto A é o conjunto de 
elementos que não estão em A: 


A= {wlw ¢ A} (2.6-18) 


A diferença entre dois conjuntos A e B, expressa por A - B, 
é definida como 


A-B={wlweEA,w¢BJ=ANB  (2.6-19) 


Vemos que esse é o conjunto de elementos que perten- 
ce a 4, mas não pertence a B. Poderíamos, por exemplo, 
definir 4º em termos de U e da operação de diferença: 
A= U-A. 

A Figura 2.31 ilustra os conceitos apresentados 
anteriormente, nos quais o universo é o conjunto de coor- 
denadas contidas no retângulo mostrado e os conjuntos 
A e B são os conjuntos de coordenadas que estão dentro 
das regiões mostradas na figura. O resultado da opera- 
ção com conjuntos indicado em cada figura é mostrado 
em cinza. 


Na discussão anterior, pertencer ao conjunto de- 
pende da posição (coordenadas). Uma premissa implícita 
ao trabalhar com imagens é que a intensidade de todos 
os pixels dos conjuntos é a mesma, já que não defini- 
mos as operações de conjuntos envolvendo valores de 
intensidade (por exemplo, não especificamos quais são 
as intensidades na interseção de dois conjuntos). A única 
forma de as operações ilustradas na Figura 2.31 fazerem 
sentido é se as imagens que contêm os conjuntos forem 


AUB ANB 


AS 


Figura 2.31 (a) Dois conjuntos de coordenadas, A e B, em um espaço 
2-D. (b) A união de A e B. (c) A interseção de A e B. (d) O complemento 
de A. (e) A diferença entre A e B. Em (b)-(e) as áreas em cinza repre- 
sentam os elementos resultantes da operação de conjuntos indicada. 


* As operações apresentadas nas equações 2.6-12 a 2.6-19 formam 
a base para a álgebra dos conjuntos, que começa com proprieda- 
des como as leis comutativas: AU B=BUAeCANB=BnAe,a 
partir delas, desenvolve uma ampla teoria baseada em operações 
de conjuntos. Uma explicação da álgebra dos conjuntos está além 
do escopo da presente discussão, mas você deve estar ciente de 
sua existência. 


binárias e, nesse caso, podemos falar em pertencer ou 
não ao conjunto dependendo apenas das coordenadas, 
considerando que todos os elementos dos conjuntos têm 
a mesma intensidade. Discutiremos isso em mais detalhes 
na subseção a seguir. 


Ao lidar com imagens em escala de cinza, os concei- 
tos anteriores não se aplicam, porque precisamos especi- 
ficar as intensidades de todos os pixels resultantes de uma 
operação com conjuntos. Com efeito, como veremos nas 
seções 3.8 e 9.6, as operações de união e interseção para 
valores em escala de cinza normalmente são definidas 
como o valor máximo e o valor mínimo entre cada par 
de pixel correspondente, respectivamente, ao passo que 
o complemento é definido como as diferenças entre uma 
constante e a intensidade de cada pixel em uma imagem. 
O fato de lidarmos com pares de pixels correspondentes 
nos informa que as operações com conjuntos em escala 
de cinza são operações de arranjo matricial, como definido 
na Seção 2.6.1. O exemplo a seguir é uma breve ilustra- 
ção de operações de conjuntos envolvendo imagens em 
escala de cinza. Discutiremos esses conceitos em mais de- 
talhes nas duas seções já mencionadas. 


| 
Exemplo 2.8 Operações de conjuntos envolvendo 
intensidades de imagem. 


Sejam os elementos de uma imagem em escala de 
cinza representada por um conjunto 4 cujos elementos são 
expressos em um grupo de três variáveis na forma (x, y, Z), 
onde x e y são coordenadas espaciais e z expressa a intensi- 
dade, como mencionamos na Seção 2.4.2. Podemos definir 
o complemento de A como o conjunto A‘ = f(x,y, K-z) | (x, y, z) 
€ A}, o que simplesmente expressa o conjunto de pixels de 
A cujas intensidades foram subtraídas de uma constante K. 
Essa constante é igual a 2* — 1, sendo k o número de bits 
por pixel utilizado para representar a intensidade z. Seja 4 
a imagem em escala de cinza de 8 bits da Figura 2.32(a), e 
suponha que queiramos formar o negativo de A utilizando 
operações com conjuntos. Nós simplesmente formamos o 
conjunto 4 = A = {(x, y, 255 —z) | (x, y, 2) € A}. Observe que 
as coordenadas são mantidas na mesma posição, de forma 
que 4, é uma imagem do mesmo tamanho que 4. A Figura 
2.32(b) mostra o resultado. 


A união dos dois conjuntos em escala de cinza 4 e B 
pode ser definida com o conjunto 


AUB={méx(a,b)|a€ A, bes} 


Em outras palavras, a uniao de dois conjuntos em es- 
cala de cinza (imagens) é um arranjo matricial formado a 
partir da intensidade máxima entre os pares de elementos 
de mesma coordenada espacial. Mais uma vez, observe que 
as coordenadas são mantidas na mesma posição, de forma 
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que a união de 4 e B é uma imagem do mesmo tamanho 
que essas duas imagens. A título de exemplo, suponha que 
A novamente represente a imagem da Figura 2.32(a), e di- 
gamos que B expresse um arranjo matricial retangular, do 
mesmo tamanho que 4, no qual todos os valores de z são 
iguais a 3 vezes a intensidade média, m, dos elementos de A. 
A Figura 2.32(c) mostra o resultado ao realizar a união dos 
conjuntos, na qual todos os valores que excedem 3m apa- 
recem como valores de 4 e todos os outros pixels têm valor 


3m, que corresponde a um nível de cinza médio. 
E 


Operações lógicas 

Quando lidamos com imagens binárias, podemos 
pensar em grupos de pixels de frente (valor 1) e de fun- 
do (valor 0). Então, se definirmos regiões (objetos) como 
sendo compostos de pixels de frente, as operações de con- 
juntos ilustradas na Figura 2.31 se tornam operações en- 
tre as coordenadas dos objetos em uma imagem binária. 
Ao lidar com imagens binárias, costuma-se referir a união, 
interseção e complemento como as operações lógicas OU 
(OR), E (AND) e NÃO (NOT), onde “lógicas” provêm da 
lógica matemática na qual 1 e O expressam verdadeiro e 
falso, respectivamente. 


Considere duas regiões (conjuntos) 4 e B com- 
postas de pixels de frente. A operação OU entre esses 
dois conjuntos é o conjunto de elementos (coordena- 
das) pertencentes a 4 ou a B ou aos dois. A operação 
E é o conjunto de elementos que são comuns a A e a 
B. A operação NÃO de um conjunto A é o conjunto de 
elementos que não pertencem a 4. Como estamos lidan- 
do com imagens, se 4 for um dado conjunto de pixels 


Figura 2.32 Conjunto de operações envolvendo imagens em escala 
de cinza. (a) Imagem original. (b) Negativo obtido da complementação 
do conjunto. (c) União de (a) com uma imagem constante. (Imagem 
original: cortesia da G.F. Medical Systems.) 
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de frente, NAO(A) é o conjunto de todos os pixels da 
imagem que não pertencem a 4, sendo que esses pixels 
são os pixels de fundo e possivelmente outros pixels de 
frente. Podemos pensar nessa operação como a trans- 
formação de todos os elementos de A em 0 (preto) e 
todos os elementos não pertencentes a 4 em 1 (bran- 
co). A Figura 2.33 ilustra essas operações. Observe na 
quarta linha que o resultado da operação é o conjunto 
de pixels de frente que pertencem a A mas não a B, o 
que é a definição da diferença de conjuntos da Equação 
2.6-19. A última linha da figura mostra a operação OU 
exclusivo (X-OU ou X-OR), que é o conjunto de pixels 
de frente que pertencem a 4 ou a B, mas não a ambos. 
Observe que as operações anteriores são realizadas en- 
tre regiões, que claramente podem ser irregulares e de 
tamanhos diferentes. Isso é o oposto das operações em 
escala de cinza discutidas anteriormente, que são ope- 
rações de arranjo matricial e, dessa forma, requerem 
conjuntos cujas dimensões espaciais são as mesmas. Em 
outras palavras, as operações com conjuntos em esca- 
la de cinza envolvem imagens completas, diferente das 
operações com regiões de imagens. 


Teoricamente, precisamos nos preocupar apenas 
com a capacidade de implementar os operadores lógicos 


NÃO(A) 


(A) E (B) 


E 
> 
A 
(A) OU (B) 
= | = > = 
(A) E [NAO (B)] 
X-OU 
> 


Figura 2.33 | Ilustração de operações lógicas envolvendo pixels de 
frente (brancos). O preto representa binários “Os” e o branco, binários 
“1s” . As linhas tracejadas são mostradas somente para referência. 
Elas não fazem parte dos resultados. 


(A) X-OU (B) 


E, OU ou NÃO, porque esses três operadores são funcio- 
nalmente completos. Em outras palavras, qualquer outro 
operador lógico pode ser implementado a partir dessas 
três funções básicas, como na quarta linha da Figura 
2.33, onde implementamos a operação de diferença de 
conjuntos utilizando os operadores E e NÃO. As opera- 
ções lógicas são amplamente utilizadas em morfologia 
de imagens, o tema do Capítulo 9. 


Conjuntos fuzzy 


O conjunto e os resultados lógicos anteriores são 
conceitos clássicos, no sentido de que os elementos ou 
pertencem ou não pertencem a um conjunto. Isso re- 
presenta uma séria limitação em algumas aplicações. 
Considere um exemplo simples. Suponha que quei- 
ramos categorizar todas as pessoas do mundo como 
jovens ou não jovens. Utilizando os conjuntos clássi- 
cos, U expressa o conjunto de todas as pessoas, e 4 
é um subconjunto de U, que chamaremos de conjun- 
to dos jovens. Para formar o conjunto A, precisamos de 
uma função de pertinência que atribua um valor 1 ou O 
a cada elemento (pessoa) de U. Se o valor atribuído a 
um elemento de U for 1, então o elemento pertencerá 
a A; caso contrário, o elemento não pertencerá a A. 
Como estamos lidando com uma lógica de dois valores, 
a função de pertinência simplesmente define um limiar 
no qual ou abaixo do qual uma pessoa é considerada 
jovem, e acima do qual uma pessoa é considerada não 
jovem. Suponha que definamos como jovem qualquer 
pessoa com 20 anos de idade ou menos. Vemos ime- 
diatamente uma dificuldade. Uma pessoa com 20 anos 
e 1 segundo de idade não pertenceria ao conjunto de 
jovens. Essa limitação surge independentemente do 
limiar de idade utilizado para classificar uma pessoa 
como jovem. O que precisamos é de mais flexibilidade 
no que queremos dizer com “jovem”, isto é, precisa- 
mos de uma transição gradual de jovem a não jovem. 
A teoria dos conjuntos fuzzy implementa esse conceito 
utilizando funções de pertinência que são graduais en- 
tre os valores-limite de 1 (definitivamente jovem) a 
O (definitivamente não jovem). Utilizando conjuntos 
fuzzy, podemos dizer, por exemplo, que uma pessoa é 
50% jovem (no meio da transição entre jovem e não 
jovem). Em outras palavras, a idade é um conceito im- 
preciso, e a lógica fuzzy nos fornece as ferramentas para 
lidar com conceitos como esses. Analisaremos os con- 
juntos fuzzy em detalhes na Seção 3.8. 


2.6.5 Operações espaciais 


As operações espaciais são realizadas diretamente 
sobre os pixels de uma determinada imagem. Classifica- 
mos as operações espaciais em três categorias amplas: (1) 
operações ponto a ponto; (2) operações por vizinhança; e 
(3) transformações geométricas. 


Operações ponto a ponto 

A operação mais simples realizada em uma imagem 
digital consiste em alterar os valores de seus pixels indivi- 
duais com base em sua intensidade. Esse tipo de processo 
pode ser expresso como uma função de transformação, 
T, com a forma: 


s = T(z) (2.6-20) 


onde z é a intensidade de um pixel na imagem original e s 
é a intensidade (mapeada) do pixel correspondente na ima- 
gem processada. Por exemplo, a Figura 2.34 mostra a trans- 
formação utilizada para obter o negativo de uma imagem 
de 8 bits, como mostrado na imagem da Figura 2.32(b), que 
obtivemos utilizando operações com conjuntos. Discuti- 
remos no Capítulo 3 uma série de técnicas para especificar 
as funções de transformação de intensidade. 


Operações por vizinhança 

Seja S,, o conjunto de coordenadas de uma vizi- 
nhança centrada em um ponto arbitrário (x, y) em uma 
imagem f. O processamento por vizinhança gera um pixel 
correspondente nas mesmas coordenadas em uma ima- 
gem de saída (processada), g, de forma que o valor desse 
pixel é determinado por uma operação específica envol- 
vendo os pixels da imagem de entrada com coordenadas 
em S,, Por exemplo, suponha que a operação especificada 
consista em calcular o valor médio dos pixels em uma vi- 
zinhança retangular de tamanho m x n centrada em (x, y). 


s= T(z) 
255 


So 


0 Zo 255 


Figura 2.34 Função de transformação de intensidade utilizada para 
obter o negativo de uma imagem de 8 bits. As setas tracejadas mos- 
tram a transformação de um valor arbitrário de entrada com intensi- 
dade z, em um valor correspondente de saída s, 
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As posições dos pixels nessa região constituem o conjunto 
S,y As figuras 2.35(a) e (b) ilustram o processo. Podemos 
expressar essa operação na forma de equação como: 


1 
A Rare 3, fino) (2.6-21) 


(7,C)ES xy 


onde r e c são as coordenadas de linha e coluna dos pixels 
que pertencem ao conjunto Sy A imagem g é criada varian- 
do-se as coordenadas (x, y), de forma que o centro da vizi- 
nhança se mova de pixel a pixel na imagem f repetindo a 
operação por vizinhança em cada nova posição. Por exem- 
plo, a imagem da Figura 2.35(d) foi criada dessa maneira 
utilizando uma vizinhança de tamanho 41 x 41. O efeito 
final é um borramento local na imagem original. Esse tipo 
de processo é utilizado, por exemplo, para eliminar detalhes 
e representar como “borrões” as regiões maiores de uma 
imagem. Discutiremos o processamento por vizinhança nos 
capítulos 3 e 5 e em vários outros locais ao longo do livro. 


Transformações geométricas e registro de imagens 


As transformações geométricas modificam a relação 
espacial entre os pixels de uma imagem. Essas transfor- 
mações costumam ser chamadas de transformações do 
tipo rubber sheet (superfície de borracha), porque podem 
ser vistas de forma análoga à “impressão” de uma ima- 
gem em uma superfície de borracha que possa ser esti- 
cada de acordo com um conjunto de regras predefinidas. 
Em termos de processamento de imagens digitais, uma 
transformação geométrica consiste em duas operações 
básicas: (1) uma transformação espacial de coordenadas 
e (2) interpolação de intensidade que atribui níveis de 
intensidade aos pixels transformados espacialmente. 


A transformação das coordenadas pode ser expressa como: 


(x, y) = Tí(v, w)} 


onde (v, w) são coordenadas de um pixel na imagem ori- 
ginal, e (x, y) são as coordenadas do pixel correspondente 
na imagem transformada. Por exemplo, a transformação 
(x, y) = Tf{(v, w)} = (v/2, w/2) reduz a dimensão (shrink) 
da imagem original à metade de seu tamanho em ambas 
as direções espaciais. Uma das transformações em coor- 
denadas espaciais mais comumente utilizadas é a transfor- 
mação afim (Wolberg [1990]), que assume a forma geral: 


(2.6-22) 


Ix y l]l=[v w 1]T 


ty f2 0 
=[v w l]| fa t2 0 
bi t32 1] (2623) 
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Figura 2.35 Cálculo da média local utilizando processamento por vizinhança. O procedimento é ilustrado em (a) e (b) para uma vizinhança 
retangular. (c) O angiograma da aorta discutido na Seção 1.3.2. (d) O resultado da utilização da Equação 2.6-21 com m = n = 41. As imagens 


estão no tamanho 790 x 686 pixels. 


Essa transformação pode realizar a operação de es- 
cala, rotação, translação ou cisalhamento em um conjunto 
de pontos coordenados, dependendo do valor escolhido 
para os elementos da matriz T. A Tabela 2.2 ilustra os 
valores da matriz utilizados para implementar essas trans- 
formações. A grande vantagem da representação matricial 
da Equação 2.6-23 é que ela proporciona a estrutura 
para concatenar uma sequência de operações. Por exemplo, 
se quisermos redimensionar uma imagem, rotacioná-la 
e transferir o resultado para alguma posição, simples- 
mente formamos uma matriz 3 x 3 igual ao produto das 
matrizes de escala, rotação e translação da Tabela 2.2. 


As transformações relocam os pixels de uma imagem 
para novas posições. Para concluir o processo, precisamos 
atribuir valores de intensidade a essas posições. Essa tarefa 
é realizada utilizando a interpolação de intensidade. Nós 
já discutimos esse tópico na Seção 2.4.4. Iniciamos aque- 
la seção com um exemplo de ampliação (zoom) de uma 


imagem e discutimos a questão da atribuição de intensi- 
dade a novas posições dos pixels. A ampliação não passa 
de uma operação de escala, como detalhado na segunda 
linha da Tabela 2.2, e uma análise similar à desenvolvida 
para a ampliação é aplicável ao problema da atribuição de 
valores de intensidade aos pixels relocados que resultaram 
das outras transformações da Tabela 2.2. Como na Seção 
2.4.4, consideramos as técnicas de interpolação bilinear, 
bicúbica e por vizinho mais próximo ao trabalhar com es- 
sas transformações. 


Na prática, podemos utilizar a Equação 2.6-23 de 
duas formas básicas. A primeira, chamada de mapeamento 
direto, consiste na varredura dos pixels da imagem de en- 
trada e, para cada posição (v, w), calcular a nova localiza- 
ção espacial (x, y) do pixel correspondente na imagem de 
saída utilizando diretamente a Equação 2.6-23. Um pro- 
blema com o método do mapeamento direto é que dois ou 
mais pixels da imagem de entrada podem ser transforma- 


Tabela 2.2 Transformações afins baseadas na Equação 2.6-23. 
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Nome da Equações 
transformação Matriz afim, T coordenadas Exemplo 
Identidade 100 x=v 
010 o i 
0 01 Y 
x 
Escala & 00 X= CV 
0 c 0 y= cw 
0 0 1 
Rotação cos 0 send 0 X= vcos 0 — wsen 6 
—sen@ coso 0 y= vsen 0 + wcos 0 
0 0 1 
Translação [1 0 0 Xx=vt+t 
0 1/0 y=wrt, 
ty itp Ti 
Cisalhamento i 0 0] X=v+syw 
(vertical) 
s 1 0 yay 
[0 0 1] 
Cisalhamento [1 s 0] x=v 
(horizontal) do E ci y= sw +w 
[0 0/1] 


dos para a mesma posição na imagem de saída, levantando 
a questão de como combinar vários valores de saída em 
um único pixel de saída. Além disso, é possível que algu- 
mas posições de saída não sejam atribuídas a nenhum pi- 
xel. A segunda abordagem, chamada de mapeamento inverso, 
realiza uma varredura nas posições dos pixels de saída e, 
a cada posição (x, y), calcula a posição correspondente na 
imagem de entrada utilizando (v, w) = T(x, y). Depois rea- 
liza a interpolação (utilizando uma das técnicas discutidas 
na Seção 2.4.4) entre os pixels de entrada mais próximos 
para determinar a intensidade do pixel de saída. Os mapea- 
mentos inversos são de implementação mais eficiente do 
que os mapeamentos diretos e são utilizados em várias apli- 
cações comerciais de transformações espaciais (por exem- 
plo, o Matlab utiliza essa abordagem). 


= 
Exemplo 2.9 Rotação da imagem e interpolação de 
intensidade. 
O objetivo deste exemplo é ilustrar a rotação de ima- 
gens utilizando uma transformação afim. A Figura 2.36(a) 
mostra uma imagem de 300 dpi e as figuras 2.36(b) a (d) são 


os resultados da rotação da imagem original em 21º utilizan- 
do a interpolação por vizinho mais próximo, a interpolação 
bilinear e a interpolação bicúbica, respectivamente. A rota- 
ção é uma das transformações geométricas mais exigentes 
em termos da preservação das características de linhas retas. 
Como vemos na figura, a interpolação por vizinho mais pró- 
ximo produziu bordas mais irregulares e, do mesmo modo 
que na Seção 2.4.4, a interpolação bilinear gerou resultados 
significativamente melhores. Como antes, a interpolação 
bicúbica produziu resultados ligeiramente mais nítidos. Na 
verdade, se você comparar o detalhe ampliado nas figuras 
2.36(c) e (d), notará no centro das subimagens que o núme- 
ro de “blocos” verticais em cinza que proporcionam a tran- 
sição de intensidade do claro ao escuro na Figura 2.36(c) 
é maior que o número correspondente de blocos em (d), 
indicando que, neste último caso, a borda é mais nítida. Re- 
sultados similares seriam obtidos com outras transformações 
espaciais da Tabela 2.2 que requerem interpolação (nem a 
identidade nem a translação requerem interpolação se os 
incrementos forem números inteiros de pixels). Esse exem- 
plo foi implementado utilizando o método de mapeamento 
inverso discutido no parágrafo anterior. 

E 
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Figura 2.36 


(a) Uma imagem de 300 dpi da letra T. (b) Imagem rotacionada a 21º utilizando a interpolação do vizinho mais próximo para atribuir 


valores de intensidade aos pixels transformados espacialmente. (c) Imagem rotacionada a 21º utilizando a interpolação bilinear. (c) Imagem 
rotacionada a 21º utilizando a interpolação bicúbica. As seções ampliadas mostram detalhes de borda para os três métodos de interpolação. 


O registro de imagens é uma importante aplicação 
do processamento de imagens digitais utilizada para ali- 
nhar duas ou mais imagens da mesma cena. Na discussão 
anterior, o formato da função de transformação necessá- 
ria para atingir uma transformação geométrica desejada 
era conhecido. No registro de imagens, temos disponíveis 
as imagens de entrada e saída, mas a transformação espe- 
cífica que produziu a imagem de saída a partir da entrada, 
em geral, é desconhecida. O problema, então, é estimar 
a função de transformação e utilizá-la para registrar as 
duas imagens. Para esclarecer a terminologia, a imagem 
de entrada é a imagem que desejamos transformar, e o 
que chamamos de imagem de referência é a imagem em 
relação à qual queremos registrar a entrada. 


Por exemplo, pode ser útil alinhar (registrar) duas 
ou mais imagens capturadas aproximadamente ao mes- 
mo tempo, mas utilizando diferentes sistemas de aquisição 
de imagens, como a ressonância magnética e a PET. Ou, 
talvez, as imagens tenham sido capturadas em diferentes 
momentos utilizando o mesmo instrumento, por exemplo 
imagens de satélite de uma determinada localização obtidas 
com vários dias, meses ou até anos de diferença. Em qual- 
quer caso, combinar as imagens ou realizar análises quan- 
titativas e comparações entre elas requer a compensação 
de distorções geométricas provocadas por diferenças no 
ângulo de visão, distância e orientação; resolução do sen- 
sor; deslocamento nas posições do objeto; e outros fatores. 


Uma das principais abordagens para solucionar o 
problema que acabamos de discutir é utilizar pontos de 
controle (tie points), que são pontos correspondentes cujas 
localizações são conhecidas com exatidão nas imagens de 
entrada e de referência. Existem várias formas de selecio- 
nar os pontos de controle, variando da seleção interativa 
à aplicação de algoritmos que tentam detectar automa- 
ticamente esses pontos. Em algumas aplicações, os sis- 


temas de aquisição de imagens possuem artefatos físicos 


(como pequenos objetos metálicos) incorporados aos sen- 
sores de imagem. Eles produzem um conjunto de pontos 
conhecidos (chamados de marcas reseau) diretamente em 
todas as imagens coletadas pelo sistema, que podem ser 
utilizados como guias para definir os pontos de controle. 


O problema em estimar a função de transformação 
está na modelagem. Por exemplo, suponha que tenha- 
mos um conjunto de quatro pontos de controle em uma 
entrada e em uma imagem de referência. Um modelo 
simples baseado na aproximação bilinear é dado por: 


(2.6-24) 


X = CU F CW 


C VW + C, 


X = CV + CW +C VW +C (2.6-25) 


sendo que, durante a fase de estimativa, (v, w) e (x, y) 
são as coordenadas dos pontos de controle das imagens 
de entrada e de referência, respectivamente. Se tiver- 
mos quatro pares de pontos de controle correspondentes 
em ambas as imagens, podemos escrever oito equações 
utilizando as equações 2.6-24 e 2.6-25 e utilizá-las para 
calcular os oito coeficientes desconhecidos, ¢,, Cy.. , C 
Esses coeficientes constituem o modelo que transforma 
os pixels de uma imagem nas posições dos pixels da outra 


imagem para realizar o registro. 


Uma vez que temos os coeficientes, as equações 2.6-24 
e 2.6-25 se tornam o nosso veículo para transformar todos 
os pixels na imagem de entrada para gerar a nova imagem 
desejada, que, se os pontos de controle forem selecionados 
corretamente, deve ser registrada com a imagem de refe- 
rência. Em situações nas quais quatro pontos de controle 
não são suficientes para obter um registro satisfatório, um 
método frequentemente utilizado consiste em selecionar 
um número maior de pontos de controle e tratar os qua- 
driláteros formados por grupos de quatro pontos de con- 
trole como subimagens. As subimagens são processadas 


como explicado anteriormente, com todos os pixels de um 
quadrilátero sendo transformados, utilizando os coeficien- 
tes determinados a partir desses pontos de controle. De- 
pois, passamos para um outro conjunto de quatro pontos 
de controle e repetimos o procedimento até que todas as 
regiões quadriláteras tenham sido processadas. Sem dúvi- 
da, é possível usar regiões que sejam mais complexas do 
que os quadriláteros e empregar modelos mais complexos, 
como a regressão polinomial pelo método dos mínimos 
quadrados. Em geral, o número de pontos de controle e a 
sofisticação do modelo necessário para solucionar um pro- 
blema dependem da gravidade da distorção geométrica. 
Por fim, tenha em mente que a transformação definida pe- 
las equações 2.6-24 e 2.6-25, ou por qualquer outro mo- 
delo, simplesmente mapeia as coordenadas espaciais dos 
pixels na imagem de entrada. Ainda precisamos realizar 
a interpolação de intensidade utilizando qualquer um dos 
métodos discutidos anteriormente para atribuir valores de 
intensidade a esses pixels. 


= 
Exemplo 2.10 Registro de imagens. 


A Figura 2.37(a) mostra uma imagem de referência, 
e a Figura 2.37(b) mostra a mesma imagem, mas geome- 
tricamente distorcida pelo cisalhamento vertical e horizon- 
tal, Nosso objetivo é utilizar a imagem de referência para 
obter pontos de controle e, em seguida, utilizar os pontos 
de controle para registrar a imagem. Os pontos de controle 
selecionados (manualmente) são mostrados como peque- 
nos quadrados brancos próximos aos cantos das imagens (só 
precisamos de quatro pontos de controle porque a distorção 
é de cisalhamento linear em ambas as direções). A Figura 
2.37(c) mostra o resultado da utilização desses pontos de 
controle no procedimento discutido nos parágrafos anterio- 
res para realizar o registro. Observamos que o registro não 
foi perfeito, como fica claro pelas bordas pretas na Figura 
2.37(c). A imagem da diferença mostrada na Figura 2.37(d) 
mostra mais claramente um ligeiro desvio de registro entre a 
imagem de referência e a imagem corrigida. O motivo dessas 
discrepâncias é um erro na seleção manual dos pontos de 
controle. É difícil realizar uma relação perfeita entre os pon- 
tos de controle quando a distorção é tão acentuada. 
= 


2.6.6 Operações com vetores e matrizes' 


O processamento de imagens multiespectrais é uma 
área típica na qual as operações com vetores e matrizes 
são utilizadas rotineiramente. Por exemplo, veremos no 
Capítulo 6 que as imagens coloridas são formadas no es- 
paço de cores RGB utilizando imagens de componentes 
vermelhos, verdes e azuis, como ilustra a Figura 2.38. 
Aqui, veremos que cada pixel de uma imagem RGB pos- 


Consulte os tutoriais (em inglês) no site do livro para uma breve 
visão sobre vetores e matrizes. 
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Figura 2.37 Registro de imagens. (a) Imagem de referência. (b) 
Entrada (imagem geometricamente distorcida). Pontos de controle 
correspondentes são mostrados como pequenos quadrados brancos 
próximos aos cantos da imagem. (c) Imagem registrada (observe os 
erros nas bordas externas). (d) Diferença entre (a) e (c), mostrando 
mais erros de registro. 


sui três componentes, que podem ser organizados na for- 
ma de um vetor coluna 


(2.6-26) 
sendo z, a intensidade de pixels na imagem vermelha e 
os outros dois elementos as intensidades do pixel cor- 
respondente nas imagens verde e azul, respectivamente. 
Dessa forma, uma imagem colorida RGB de tamanho M 
x Npode ser representada pelas três imagens componen- 
tes de mesmo tamanho ou por um total de MN vetores 
3-D. Um caso multiespectral geral envolvendo n imagens 
componentes (por exemplo, veja a Figura 1.10) resultará 
em vetores n-dimensionais. Utilizamos esse tipo de repre- 
sentação vetorial em partes dos capítulos 6, 10, 11 e 12. 


Uma vez que os pixels foram representados como 
vetores, temos à nossa disposição as ferramentas da teo- 
ria vetor-matriz. Por exemplo, a distância euclidiana, D, 
entre um pixel representado pelo vetor z e um ponto ar- 
bitrário a em um espaço n-dimensional é definida como 
o produto vetorial: 
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Figura 2.38 


1 
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Vemos que essa é uma generalização da distancia 
euclidiana 2-D definida na Equação 2.5-1. A Equação 
2.6-27 por vezes é chamada de norma vetorial, expressa 
por liz — all. Utilizaremos cálculos de distância inúmeras 
vezes nos capítulos seguintes. 


(2.6-27) 


Outra importante vantagem dos pixels em forma de ve- 
tores está nas transformações lineares, representadas como: 


w= A(z- a) (2.6-28) 


onde A é uma matriz de tamanho m x n e z e a são 
vetores coluna de tamanho n x 1. Como veremos mais 
adiante, transformações desse tipo têm várias aplicações 
úteis no processamento de imagens. 


Como observado na Equação 2.4-2, imagens inteiras 
podem ser tratadas como matrizes (ou, de forma equivalente, 
como vetores), um fato que tem importantes implicações na 
resolução de vários problemas de processamento de imagens. 
Por exemplo, podemos expressar uma imagem de tamanho 
M x N como um vetor de dimensão MN x 1 fazendo com 
que a primeira linha da imagem seja composta pelos primei- 
ros N elementos do vetor, a segunda linha pelos próximos N 
elementos, e assim por diante. Com imagens formadas dessa 
maneira, podemos expressar uma ampla variedade de pro- 
cessos lineares aplicados a uma imagem utilizando a notação: 


g=Hf+n (2.6-29) 


onde f é um vetor MN x 1 representando uma imagem 
de entrada, n é um vetor MN x 1 representando um pa- 
drão de ruído M x N, g é um vetor MN x 1 representando 
uma imagem processada e H é uma matriz MN x MN 
representando um processo linear aplicado à imagem de 
entrada (veja a Seção 2.6.2 sobre os processos lineares). 


Imagem do componente 3 (Azul) 


Imagem do componente 2 (Verde) 


Imagem do componente | (Vermelha) 


Formação de um vetor a partir de valores de pixels correspondentes em três imagens de componentes RGB. 


É possível, por exemplo, desenvolver toda uma série de 
técnicas generalizadas para a restauração de imagens a 
partir da Equação 2.6-29, como veremos na Seção 5.9. 
Retomaremos a utilização de matrizes na seção a seguir 
e mostraremos outras utilizações de matrizes para o pro- 
cessamento de imagens nos capítulos 5, 8, 11 e 12. 


2.6.7 Transformadas de imagens 


Todas as metodologias de processamento de imagens 
discutidas até agora operam diretamente sobre os pixels da 
imagem de entrada, isto é, elas funcionam diretamente no 
dominio espacial. Em alguns casos, tarefas de processamen- 
to de imagens sao mais bem formuladas transformando as 
imagens de entrada, transferindo a tarefa especificada para 
o dominio da transformada e aplicando a transformada in- 
versa para retornar ao domínio espacial. Veremos uma sé- 
rie de transformadas diferentes à medida que avançarmos 
ao longo do livro. Uma classe particularmente importante 
de transformadas lineares bidimensionais, T(u, v), pode ser 
expressa na forma geral 


-1N- 
-5 I r(x, y, u, v) (2.6-30) 
onde f(x, y) é a imagem de entrada, r(x, y, u, v) é chamado 
de kernel de transformação direta e a Equação 2.6-30 é cal- 
culada para u = 0, 1, 2,..., M-lev=0,1,2,...,N-1. 
Como antes, x e y são variáveis espaciais, enquanto M e 
N são as dimensões de linha e coluna de f. As variáveis 
u e v são chamadas de variáveis da transformada. T(u, v) é 
chamada de transformada direta de f(x, y). Dado T(u, v), 
podemos recuperar f(x, y) utilizando a transformada inver- 
sa de T(u, v), 


s(x, y, u, v) (2.6-31) 


ei 


para x= 0, 1, 2,..,M-ley=0, 1, 2,..., N- 1, onde 
s(x, y, u, v) é chamada de kernel de transformação inversa. 


Juntas, as equações 2.6-30 e 2.6-31 são chamadas de um 
par de transformadas. 


A Figura 2.39 mostra os passos básicos para realizar 
o processamento de imagens no domínio da transformada 
linear. Em primeiro lugar, a imagem de entrada é trans- 
formada, a imagem transformada é então modificada por 
uma operação predefinida, e, finalmente, a imagem de 
saída é obtida pelo cálculo da transformada inversa. Dessa 
forma, vemos que o processo passa do domínio espacial ao 
domínio da transformada e de volta ao domínio espacial. 


Exemplo 2.11 Processamento de imagens no domínio 


da transformada. 


A Figura 2.40 mostra um exemplo dos passos apre- 
sentados na Figura 2.39. Neste caso, a transformada utiliza- 
da foi a de Fourier, que mencionaremos de maneira breve 
mais adiante nesta seção e discutiremos em detalhes no Ca- 
pítulo 4. A Figura 2.40(a) é uma imagem corrompida por 
uma interferência senoidal e a Figura 2.40(b) é a magnitude 
de sua transformada de Fourier, que é a saída do primei- 
ro estágio na Figura 2.39. Como veremos no Capítulo 4, 
a interferência senoidal no domínio espacial é vista como 
pontos brilhantes (de intensidade alta) no domínio da trans- 
formada. Neste caso, os pontos brilhantes ocorrem em um 
padrão circular que pode ser visto na Figura 2.40(b). A Figu- 
ra 2.40(c) mostra uma imagem máscara (chamada de filtro) 
com branco e preto representando 1 e 0, respectivamente. 
Para esse exemplo, a operação R mostrada no segundo qua- 
dro da Figura 2.39 consiste em multiplicar a máscara pela 
imagem no domínio da transformada eliminando, dessa for- 
ma, os pontos brilhantes responsáveis pela interferência se- 
noidal. A Figura 2.40(d) mostra o resultado final, obtido pelo 
cálculo da transformada inversa da imagem modificada. 
A interferência não é mais visível e os detalhes importantes 
estão relativamente nítidos. Na verdade, é até possível ver 
as marcas fiduciais (pequenas cruzes quase imperceptíveis) 
utilizadas para alinhamento de imagem. 

E 


Diz-se que o kernel de transformação direta é sepa- 
rável se 


r(x, y, u, v) = r(x, urky, v) (2.6-32) 


Além disso, diz-se que o kernel é simétrico se r (x, y) 
for funcionalmente igual a r, (x, y), de forma que 


r(x, y, u, v) = r(x, u)r (y, v) (2.6-33) 
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Comentários idênticos se aplicam ao kernel inverso 
substituindo r por s nas equações mencionadas. 


A transformada bidimensional de Fourier discutida 
no Exemplo 2.11 tem os seguintes kernels direto e inverso: 


1%, Y, U, V) = e Proxi wN) (2.6-34) 


s(x, y, u, V) = = ePatuxiMevy/N) (2.6-35) 
MN 

respectivamente, sendo j = V-1 , de forma que esses ker- 

nels sao complexos. Substituindo tais kernels nas formulas 

gerais de transformada apresentadas nas equações 2.6-30 

e 2.6-31, temos o par de transformadas discretas de Fourier: 


M-1N-1 
T(u,v) = 5 WF (x, ype F2me/M+y/N) (2,6-36) 
x=0 y=0 
€ 
1 M-1N-1 , 
fy) = — MM TG verre" (2,6-37) 
MN u=0 v=0 


Essas equações são de fundamental importância no pro- 
cessamento de imagens digitais, e dedicamos grande parte 
do Capítulo 4 para deduzi-las, começando dos princípios 
básicos e, depois, utilizando-as em uma ampla variedade 
de aplicações. 

Não é difícil demonstrar que os kernels de Fou- 
rier são separáveis e simétricos (Exercício 2.25) e que 
os kernels separáveis e simétricos permitem que trans- 
formadas bidimensionais sejam computadas utilizando 
transformadas unidimensionais (Exercício 2.26). Quan- 
do os kernels direto e inverso de um par de transforma- 
das satisfizeram essas duas condições e f(x, y) for uma 
imagem quadrada de tamanho M x M, as equações 2.6-30 
e 2.6-31 poderão ser expressas na forma matricial: 


T=AFA (2.6-38) 
onde F é uma matriz M x M contendo os elementos de 
fix, y) (veja a Equação 2.4-2), A é uma matriz M x M com 


elementos a, =r,(i, j) e T é a transformada M x M resul- 
tante, com valores T(u, v) para u, v=0,1,2,..,M-1. 

Para obter a transformada inversa, multiplicamos an- 
tes e depois a Equação 2.6-38 por uma matriz de transfor- 
mação inversa B: 


BTB = BAFAB (2.6-39) 


T(u, v) 


Fx, y) — Transformada R 


Operação 


Transformada 


R[T(u, v)] ao, 


inversa 


Dominio m nel Dominio 


espacial 


Figura 2.39 


Dominio da transformada 


espacial 


Abordagem geral para operar no dominio de uma transformada linear. 
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Figura 2.40 


(a) Imagem corrompida por uma interferência senoidal. 
(b) Magnitude da transformada de Fourier mostrando pontos brilhan- 
tes de energia responsáveis pela interferência. (c) Máscara utilizada 
para eliminar os pontos brilhantes de energia. (d) Resultado obtido 
pelo cálculo da transformada da inversa de Fourier modificada. (Cor- 
tesia da Nasa). 


Se B = A”, 


F = BTB (2.6-40) 


indicando que F [cujos elementos são iguais à imagem 
fix, y)] pode ser completamente recuperada a partir de 
sua transformada direta. Se B não for igual a A”, o uso 
da Equação 2.6-40 gera uma aproximação: 


f= BAFAB (2.6-41) 


Além da transformada de Fourier, várias transfor- 
madas importantes, incluindo a de Walsh, de Hadamard, 
discreta de cosseno, de Haar e transformadas de slant, 
podem ser expressas na forma das equações 2.6-30 e 
2.6-31 ou, de modo equivalente, na forma das equações 
2.6-38 e 2.6-40. Discutiremos várias dessas transforma- 
das de imagem, além de outros tipos de transformadas, 
em capítulos posteriores. 


2.6.8 Métodos probabilísticos* 


A probabilidade influencia o trabalho do proces- 
samento de imagens de várias formas. A mais simples 
é quando tratamos os valores de intensidade como va- 
riaveis aleatórias. Por exemplo, seja z, i = 0, 1, 2,..., 
L- 1 os valores de todas as intensidades possíveis em uma 
imagem digital M x N. A probabilidade, p(z,), de vo nível 


* Consulte os tutoriais (em inglês) no site do livro para uma breve 
visão geral da teoria da probabilidade. 


de intensidade z, ocorrer em uma determinada imagem é 
estimada como: 
(= (2.6-42) 
Ly SSS .O- 
Pé = MN 
onde n, é o numero de vezes em que a intensidade z, 


ocorre na imagem e MN é o número total de pixels. 
Naturalmente, 


=] 
Splz)=1 (2.6-43) 
k=0 
Calculado p(z,), podemos determinar uma série de 
características importantes da imagem. Por exemplo, a 
intensidade média é dada por 


L=1 
m= $ ZP (Zz) (2.6-44) 
k=0 


De forma similar, a variância das intensidades é 


L=1 
o? = X (Zk mpi) (2.6-45) 

k=0 

A variância é uma medida de dispersão dos valores 
de z em relação à média, de forma que se trata de uma 
medida útil do contraste da imagem. Em geral, o n-ésimo 
momento da variável aleatória z em relação à média é 
definido como: 


L=d 
tnlz) = X, (zk m)"p (Zy) (2.6-46) 
k=0 

Vemos que (z) = 1, (zZ) = 0 e p,(z) = 0º" En- 
quanto a média e a variância têm uma relação imedia- 
tamente óbvia com as propriedades visuais de uma ima- 
gem, momentos de ordem superior são mais sutis. Por 
exemplo, um terceiro momento positivo indica que as 
intensidades têm uma tendência a apresentar valores 
maiores do que a média; um terceiro momento negati- 
vo indicaria a condição oposta; e um terceiro momen- 
to zero indicaria que as intensidades são distribuídas 
de forma aproximadamente igual em ambos os lados 
do valor médio. Essas características são úteis para fins 
computacionais, mas não nos dizem muito sobre a apa- 
rência de uma imagem em geral. 


“ As unidades de variância são em valores de intensidade eleva- 


dos ao quadrado. Ao comparar valores de contraste, no entanto, 
normalmente utilizamos o desvio padrão, (raiz quadrada da va- 
riância), porque suas dimensões são diretamente em termos de 
valores de intensidade. 


= 

Exemplo 2.12 Comparação dos valores de desvio 
padrão como medidas de contraste da 
intensidade da imagem. 

A Figura 2.41 apresenta três imagens de 8 bits mos- 
trando baixo, médio e alto contraste, respectivamente. Os 
desvios padrão dos níveis de cinza dos pixels nas três ima- 
gens são 14,3; 31,6; e 49,2, respectivamente. Os valores de 
variância correspondentes são 204,3; 997,8; e 2.424,9, res- 
pectivamente. Os dois conjuntos de valores contam a mes- 
ma história, mas, considerando que o intervalo de possíveis 
valores de níveis de cinza nessas imagens seja [0, 255], os 
valores de desvio padrão se relacionam com esse intervalo 
de forma muito mais intuitiva do que a variância. 

E 


Como veremos ao longo deste livro, os conceitos da 
probabilidade exercem um papel central no desenvolvi- 
mento de algoritmos de processamento de imagens. Por 
exemplo, no Capítulo 3, utilizaremos a medida de pro- 
babilidade da Equação 2.6-42 para obter os algoritmos de 
transformação de intensidade. No Capítulo 5, utilizare- 
mos formulações da probabilidade e de matriz para desen- 
volver algoritmos de restauração de imagens. No Capítulo 
10, a probabilidade será utilizada para a segmentação de 
imagens e, no Capítulo 11, ela será utilizada para a des- 
crição de texturas. No Capítulo 12, obteremos técnicas de 
reconhecimento de objetos com base em uma formulação 
probabilística. 


Até agora, abordamos a questão da aplicação da pro- 
babilidade a uma única variável aleatória (intensidade) em 
uma única imagem 2-D. Se considerarmos sequências de 
imagens, podemos interpretar a terceira variável como 
sendo o tempo. As ferramentas necessárias para lidar 
com essa complexidade adicional são técnicas estocásticas 
de processamento de imagens (a palavra estocástico vem de 
uma palavra grega que significa, de modo genérico, “mi- 
rar em um alvo”, sugerindo a aleatoriedade do resultado 
de um processo). Podemos ir um passo além e conside- 
rar uma imagem inteira (em oposição a um ponto) como 
o evento espacial aleatório. As ferramentas necessárias 
para lidar com as formulações baseadas nesse conceito 
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são técnicas desenvolvidas a partir de campos aleatórios. 
Damos um exemplo na Seção 5.8 de como tratar imagens 
inteiras como eventos aleatórios, mas discussões mais 
aprofundadas de processos estocásticos e campos aleató- 
rios estão além do escopo deste livro. As referências no 
final deste capítulo proporcionam um ponto de partida 
para a leitura sobre esses tópicos. 


Resumo 


O conteúdo deste capítulo constitui, em sua maior 
parte, uma base para as discussões subsequentes. Nossa 
abordagem do sistema visual humano, apesar de breve, 
dá uma ideia básica da capacidade de o olho perceber as 
informações visuais. A discussão sobre a luz e o espec- 
tro eletromagnético é fundamental para a compreensão 
da origem das várias imagens que utilizamos neste livro. 
De forma similar, o modelo de imagem desenvolvido na 
Seção 2.3.4 é utilizado no Capítulo 4 como a base para 
uma técnica de realce de imagem chamada de filtragem 
homomórfica. 


Os conceitos de amostragem e interpolação apre- 
sentados na Seção 2.4 constituem as bases para muitos 
dos fenômenos de digitalização que você provavelmente 
encontrará na prática. Retomaremos a questão da amos- 
tragem e muitas de suas ramificações no Capítulo 4, de- 
pois de você ter dominado a transformada de Fourier e o 
domínio de frequência. 


Os conceitos apresentados na Seção 2.5 são os ele- 
mentos constitutivos básicos das técnicas de processamento 
baseadas nas vizinhanças de pixels. Por exemplo, como 
mostraremos no capítulo seguinte e no Capítulo 5, os 
métodos de processamento por vizinhanças estão no cen- 
tro de muitos procedimentos de realce e restauração de 
imagens. No Capítulo 9, utilizaremos as operações por 
vizinhança na morfologia de imagens; no Capítulo 10, as 
utilizaremos para a segmentação de imagens; e, no Capí- 
tulo 11, para a descrição de imagens. Quando aplicável, o 
processamento por vizinhança é favorecido em usos co- 
merciais de processamento de imagens em virtude de sua 


Figura 2.41 


Imagens mostrando (a) baixo contraste, (b) médio contraste e (c) alto contraste. 
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velocidade operacional e simplicidade de implementação 
em hardware e/ou firmware. 


O material da Seção 2.6 será útil em sua jornada ao 
longo deste livro. Apesar de o nível da discussão ter sido 
estritamente introdutório, agora você pode conceituali- 
zar o que significa processar uma imagem digitalmente. 
Como mencionamos naquela seção, as ferramentas apre- 
sentadas são expandidas nos capítulos seguintes confor- 
me necessário. Em vez de dedicar todo um capítulo ou 
apêndice para apresentar um tratamento abrangente dos 
conceitos matemáticos em um único local, fará mais sen- 
tido aprender as extensões necessárias das ferramentas 
matemáticas da Seção 2.6 em capítulos posteriores, no 
contexto de como elas são aplicadas para solucionar pro- 
blemas de processamento de imagens. 


Referências e leituras complementares 


Leituras adicionais para o conteúdo da Seção 2.1, 
considerando a estrutura do olho humano, podem 
ser encontradas em Atchison e Smith (2000) e Oyster 
(1999). Para saber mais sobre a percepção visual, veja 
Regan (2000) e Gordon (1997). O livro de Hubel (1988) 
e o livro clássico de Cornsweet (1970) também são de in- 
teresse. Born e Wolf (1999) é uma referência básica que 
discute a luz em termos da teoria eletromagnética. A pro- 
pagação da energia eletromagnética é coberta com algum 
detalhe em Felsen e Marcuvitz (1994). 


A área de sensores de imagens é relativamente am- 
pla e muito dinâmica. Uma excelente fonte de informa- 
ções sobre sensores óticos e outros sensores de geração 
de imagens é a Sociedade de Engenharia Ótica (SPIE — 
Society for Optical Engineering). Sugerimos estas publica- 
ções representativas da SPIE nessa área: Blouke et al. 
(2001), Hoover e Doty (1996) e Freeman (1987). 


O modelo de imagens apresentado na Seção 2.3.4 
é de Oppenheim, Schafer e Stockham (1968). Uma refe- 
rência para os valores de iluminação e refletância utiliza- 
dos nesta seção é o IESNA Lighting Handbook (2000). Para 
saber mais sobre amostragem de imagens e alguns de 
seus efeitos, como o aliasing, veja Bracewell (1995). Dis- 
cutiremos esse tópico em mais detalhes no Capítulo 4. Os 
primeiros experimentos mencionados na Seção 2.4.3 so- 
bre a qualidade percebida da imagem como uma função 
da amostragem e quantização foram relatados por Huang 
(1965). A questão da redução do número de amostras e 
níveis de intensidade de uma imagem enquanto a degra- 
dação resultante é minimizada continua sendo de interes- 


se atual, como exemplificado por Papamarkos e Atsalakis 
(2000). Para saber mais sobre a redução e a ampliação 
de imagens veja Sid-Ahmed (1995), Unser et al. (1995), 
Umbaugh (2005) e Lehmann et al. (1999). Para leituras 
adicionais sobre os tópicos cobertos na Seção 2.5, veja 
Rosenfeld e Kak (1982), Marchand-Maillet e Sharaiha 
(2000) e Ritter e Wilson (2001). 


Leituras adicionais sobre sistemas lineares no con- 
texto do processamento de imagens (Seção 2.6.2) podem 
ser encontradas em Castleman (1996). O método de re- 
dução de ruídos por meio da média de múltiplas imagens 
(Seção 2.6.3) foi proposto pela primeira vez por Kohler e 
Howell (1963). Veja Peebles (1993) em relação ao valor 
esperado da média e da variância de uma soma de variá- 
veis aleatórias. A subtração de imagens (Seção 2.6.3) é 
uma ferramenta genérica de processamento de imagens 
utilizada em grande parte para a detecção de mudanças. 
Para que a subtração de imagens faça sentido, é neces- 
sário que as imagens subtraídas sejam registradas ou, de 
forma alternativa, que quaisquer artefatos causados pelo 
movimento sejam identificados. Dois artigos de Meijering 
etal. [1999, 2001] são representativos dos tipos de técni- 
cas utilizadas para atingir esses objetivos. 


Uma referência básica para o conteúdo apresenta- 
do na Seção 2.6.4 é Cameron (2005). Para leituras mais 
avançadas sobre o assunto, veja Tourlakis (2003). Para 
uma introdução aos conjuntos fuzzy, veja a Seção 3.8 e 
as referências correspondentes no Capítulo 3. Para mais 
detalhes sobre o processamento ponto a ponto e pro- 
cessamento por vizinhança (Seção 2.6.5), veja as seções 
3.2 a 3.4 e as referências para esses tópicos no Capítulo 
3. Para transformações espaciais geométricas, veja Wol- 
berg (1990). 


Noble e Daniel (1988) é uma referência básica para 
operações com matrizes e vetores (Seção 2.6.6). Veja o 
Capítulo 4 para uma discussão detalhada sobre a trans- 
formada de Fourier (Seção 2.6.7) e os capítulos 7,8 e 11 
para exemplos de outros tipos de transformadas utiliza- 
das no processamento de imagens digitais. Peebles (1993) 
é uma introdução básica à probabilidade e variáveis alea- 
tórias (Seção 2.6.8) e Papoulis (1991) apresenta uma me- 
todologia mais avançada do tema. Para textos fundamen- 
tais sobre a utilização de áreas estocásticas e aleatórias no 
processamento de imagens, veja Rosenfeld e Kak (1982), 
Jahne (2002) e Won e Gray (2004). 

Para detalhes sobre a implementação em aplicativos 
computacionais de muitas das técnicas ilustradas neste 
capítulo, veja Gonzalez, Woods e Eddins (2004). 


Exercícios” 


*2.1 


2.2 


*2.3 


2.4 


Utilizando as informações apresentadas na Seção 2.1 e 
pensando puramente em termos geométricos, estime o 
diâmetro do menor ponto impresso que o olho é capaz 
de discernir se a página na qual o ponto foi impresso 
estiver a 0,2 metros de distância dos olhos. Suponha, 
para fins de simplificação, que o sistema visual deixe de 
detectar o ponto quando a imagem do ponto na fóvea 
ficar menor do que o diâmetro de um receptor (cone) 
nessa área da retina. Suponha também que a fóvea 
possa ser modelada em um arranjo matricial quadrado 
de dimensões 1,5 mm x 1,5 mm e que os cones e es- 
paços entre eles sejam distribuídos uniformemente ao 
longo desse arranjo. 


Quando você entra em uma sala de cinema escura em 
um dia claro, leva um tempo antes de conseguir en- 
xergar bem o suficiente para encontrar um lugar vago. 
Quais dos processos visuais explicados na Seção 2.1 
ocorrem nessa situação? 


Apesar de não ser mostrado na Figura 2.10, a corrente 
alternada com certeza faz parte do espectro eletromag- 
nético. A corrente alternada comercial nos Estados 
Unidos tem uma frequência de 60 Hz. Qual é o com- 
primento de onda em quilômetros desse componente 
do espectro? 


Você foi contratado para desenvolver um dispositivo de 
entrada de um sistema de aquisição de imagens para 
estudar os formatos dos contornos de células, bactérias, 
vírus e proteínas. O dispositivo de entrada consiste, 
neste caso, na(s) fonte(s) de iluminação e câmera(s) de 
aquisição de imagens correspondente (s). Os diâmetros 
dos círculos necessários para incluir espécimes indivi- 
duais em cada uma dessas categorias são 50; 1; 0,1; e 
0,001 gm, respectivamente. 


(a) Você consegue solucionar os aspectos relativos à 
aquisição de imagens desse problema com um úni- 
co sensor e câmera? Se a sua resposta for sim, es- 
pecifique a banda do espectro eletromagnético (em 
comprimentos de onda) da iluminação e o tipo de 
câmera necessário. Por “tipo” queremos dizer a 
banda do espectro eletromagnético à qual a câme- 
ra é mais sensível (por exemplo, o infravermelho). 


Se a sua resposta para (a) for não, que tipo de fontes 
de iluminação e sensores correspondentes de aqui- 
sição de imagens você recomendaria? Especifique 
as fontes de luz e câmeras como solicitado na parte 
(a). Utilize o número mínimo de fontes de ilumina- 
ção e câmeras necessário para resolver o problema. 
Por “resolver o problema”, queremos dizer conseguir 
detectar detalhes circulares de diâmetro 50; 1; 0,1; e 
0,001 um, respectivamente. 


Soluções detalhadas dos exercícios marcados com um asterisco 
podem ser encontradas no site do livro. O site também contém 
projetos sugeridos com base no conteúdo deste capítulo. 


2.5 


*2.6 


2.7 


2.8 
*2.9 
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Um chip de câmera CCD de dimensões 7 x 7 mm con- 
tém 1.024 x 1.024 elementos e se concentra em uma 
área plana e quadrada, localizada a 0,5 m de distância. 
Quantos pares de linha por mm essa câmera será capaz 
de resolver? A câmera está equipada com lentes de 35 
mm. (Dica: modele o processo de aquisição de imagens 
como na Figura 2.3, com a distância focal das lentes da 
câmera substituindo a distância focal do olho.) 


Um fabricante de automóveis está automatizando as 
substituições de alguns componentes dos para-choques 
de uma linha de edição limitada de carros esportivos. Os 
componentes são coordenados de acordo com as cores, 
de forma que os robôs precisam saber a cor de cada car- 
ro para selecionar o componente apropriado dos para- 
-choques. Os carros sao fabricados em apenas quatro cores: 
azul, verde, vermelho e branco. Você foi contratado para 
propor uma solução baseada na aquisição de imagens. 
Como solucionaria o problema de determinar automati- 
camente a cor de cada carro, tendo em mente que o custo é 
o fator mais importante na sua escolha dos componentes? 


Suponha que uma área plana com centro em (x, y,) 
seja iluminada por uma fonte de luz com distribuição 
de intensidade 


ix, y) = Ke ttf + wl 


Suponha, para fins de simplificação, que a refletância 
da área seja constante e igual a 1,0 e que K = 255. Sea 
imagem resultante for digitalizada com k bits de resolu- 
ção de intensidade e o olho puder detectar uma mudança 
súbita de oito níveis de intensidade entre pixels adjacen- 
tes, qual valor de k causará um falso contorno visível? 


Esboce a imagem do Exercício 2.7 para k = 2. 


Uma medida comum de transmissão de dados digitais 

é o baud rate, definido como o número de bits transmi- 

tidos por segundo. Em geral, a transmissão é feita em 

pacotes consistindo em um bit de início (start bit, que 

marca o início da transmissão), um byte (8 bits) de in- 

formação e um bit de parada (stop bit, que indica o fim 

da transmissão). 

Dados esses fatos, responda as seguintes perguntas: 

(a) Quantos minutos levaria para transmitir uma ima- 
gem de 1.024 x 1.024 com 256 níveis de cinza uti- 
lizando um modem de 56K bauds? 


(b) Quanto tempo levaria em 3.000K bauds, uma ve- 
locidade representativa de uma linha telefônica do 
tipo DSL (Digital Subscriber Line)? 


2.10 Uma televisão de alta definição (HDTV) gera imagens 


com 1.125 linhas horizontais de TV entrelaçadas (onde 
o campo das linhas pares e das linhas ímpares são pin- 
tados alternadamente na entrada do tubo, e cada cam- 
po tem 1/60 segundos de duração). A proporção largu- 
ra por altura da imagem (razão de aspecto) é de 16:9. 
O fato de o número de linhas horizontais ser fixo deter- 
mina a resolução vertical das imagens. Uma empresa 
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projetou um sistema de captura de imagens que gera 
imagens digitais a partir de imagens de HDTVs. A reso- 
lução de cada linha da TV (horizontal) nesse sistema é 
proporcional à resolução vertical, com a proporção sen- 
do a razão de aspecto das imagens. Cada pixel na ima- 
gem colorida tem 24 bits de resolução de intensidade, 
8 bits para cada imagem componente de cor: vermelha, 
verde e azul. Essas três imagens “primárias” formam 
uma imagem colorida. Quantos bits seriam necessá- 
rios para armazenar um filme de 2 horas em HDTV? 


“2.11 Considere os dois subconjuntos de imagens, S, e S, 


mostrados na figura a seguir. Para V = {1}, determine 
se esses dois subconjuntos são (a) adjacentes-4, (b) ad- 
jacentes-8 ou (c) adjacentes-m. 


Son FP o 


“2.12 Desenvolva um algoritmo para converter um caminho-8 


de 1 pixel de espessura em um caminho-4. 


2.13 Desenvolva um algoritmo para converter um cami- 


nho-m de 1 pixel de espessura em um caminho-4. 


2.14 Releia a discussão no final da Seção 2.5.2, na qual 


definimos o fundo como (R,)‘, que é o complemen- 
to da união de todas as regiões de uma imagem. Em 
algumas aplicações, é vantajoso definir o fundo como 
o subconjunto de pixels (R, ) que não são “buracos” 
(pense, informalmente, nos buracos como conjuntos 
de pixels de fundo cercados de pixels de região). Como 
você modificaria a definição para excluir os pixels nu- 
los de (R,)°? Uma resposta do tipo “o fundo é o sub- 
conjunto de pixels de (R ) que não são buracos” não é 
aceitável. (Dica: use o conceito de conectividade.) 


2.15 Considere o segmento de imagem mostrado. 


(a) Se V= (0,1), calcule os comprimentos dos cami- 
nhos —4, —8 e —m mais curtos entre p e q. Se um 
caminho específico não existir entre esses dois 
pontos, explique por quê. 

(b) Faça o mesmo para V = (1,2) 


3 1 2 1(9) 


2 2 0 2 
1211 
(Þ)1 0 1 2 


2.16 *(a) Defina a(s) condição(ões) sob as quais a distância 


D, entre dois pontos p e q é igual ao caminho-4 
mais curto entre esses pontos. 


(b) Esse caminho é único? 


2.17 Repita o Exercício 2.16 para a distancia D,. 

*2.18 No próximo capítulo, abordaremos dois operadores 
cuja função é calcular a soma dos valores de pixels 
em uma pequena área de subimagem, S. Demonstre 
que estes são operadores lineares. 

2.19 A mediana, (, de um conjunto de números é tal que 
a metade dos valores do conjunto está abaixo de Ce a 
outra metade está acima dela. Por exemplo, a mediana 
do conjunto de valores (2, 3, 8, 20, 21, 25, 31) é 20. 
Demonstre que um operador que calcula a mediana de 
uma área de subimagem, S, é não linear. 


“2.20 Prove a validade das equações 2.6-6 e 2.6-7. [Dica: co- 
mece com a Equação 2.6-4 e use o fato de que o valor 
esperado de uma soma é a soma dos valores esperados.) 


2.21 Considere duas imagens de 8 bits cujos níveis de cinza 
cobrem todo o intervalo de 0 a 255. 


(a) Discuta o efeito limitador de subtrair repetidamen- 
te a imagem (2) da imagem (1). Suponha que o 
resultado também seja representado em 8 bits. 

(b) Inverter a ordem das imagens levaria a um resulta- 
do diferente? 

“2.22 A subtração de imagens costuma ser utilizada em apli- 
cações industriais para detectar componentes faltan- 
tes na montagem de um produto. A metodologia é 
armazenar uma imagem “ótima” que corresponda à 
montagem correta; essa imagem é então subtraída 
das imagens do mesmo produto. Teoricamente, as di- 
ferenças serão zero se os novos produtos forem mon- 
tados corretamente. As imagens da diferença para os 
produtos com componentes faltantes seriam diferen- 
tes de zero na área onde diferem da imagem ótima. 
Quais condições você acha que deveriam ser atendi- 
das na prática para esse método funcionar? 

2.23 “(a) Consultando a Figura 2.31, esboce o conjunto (A N 

B) U (A U BY. 

(b) Dê as expressões para os conjuntos mostrados em 
cinza na figura a seguir em termos dos conjuntos A, 
B e C. As áreas em cinza em cada figura constituem 
um conjunto, de forma que cada uma das três fi- 
guras deve ter uma expressão correspondente. 


] 
| E = 


B Ç 


2.24 Quais seriam as equações análogas às equações 2.6-24 
e 2.6-25, que resultariam da utilização de regiões trian- 
gulares em vez de quadriláteras? 


2.25 Prove que os kernels de Fourier nas equações 2.6-34 e 


2.6-35 são separáveis e simétricos. 


*2.26 Mostre que transformadas bidimensionais com kernels 


separáveis e simétricos podem ser determinadas (1) 
calculando as transformadas unidimensionais ao lon- 
go das linhas (colunas) individuais da entrada e depois 
(2) calculando as transformadas unidimensionais ao 
longo das colunas (linhas) do resultado do passo (1). 


2.27 Uma fábrica produz uma linha de quadrados de polí- 


meros miniaturizados e translúcidos. Rigorosos padrões 
de qualidade requerem 100% de inspeção visual e a 
gerente da fábrica percebe que a utilização de inspeto- 
res humanos é cada vez mais dispendiosa. A inspeção 
é semiautomatizada. Em cada estação de inspeção, um 
mecanismo robótico posiciona cada quadrado de polí- 
mero sobre uma luz localizada abaixo de um sistema 
ótico que produz uma imagem ampliada do quadrado. 
A imagem preenche completamente o monitor de ima- 
gem, de dimensões 80 x 80 mm. Os defeitos aparecem 
como borrões circulares escuros e o trabalho do inspe- 
tor é olhar para a tela e rejeitar qualquer amostra que 
tenha um ou mais desses borrões escuros com diâmetro 
igual ou maior do que 0,8 mm, de acordo com a medida 
de uma régua na tela. A gerente acredita que, se conseguir 
encontrar uma maneira de automatizar completamente 
o processo, ela aumentará os lucros em 50%. Ela tam- 
bém acredita que o sucesso desse projeto a ajudará a 
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subir na pirâmide corporativa da empresa. Depois de 
muita investigação, a gerente decide que a forma 
de solucionar o problema é visualizar cada tela de inspe- 
ção com uma câmera CCD de TV e alimentar a saída 
da câmera com um sistema de processamento de ima- 
gens capaz de detectar os borrões, medir seu diâmetro 
e ativar os botões aceitar/rejeitar que antes eram ope- 
rados por um inspetor. Ela consegue encontrar um sis- 
tema capaz de realizar o trabalho, contanto que o menor 
defeito ocupe uma área de pelo menos 2 x 2 pixels na 
imagem digital. A gerente contrata você para ajudá-lo a 
escolher o sistema de câmera e lentes, mas requer que 
você utilize componentes que já estão fora de linha. Para 
as lentes, presuma que essa restrição implique qualquer 
múltiplo inteiro de 25 mm ou 35 mm, até 200 mm. Para 
as câmeras, a limitação significa resoluções de 512 x 512, 
1.024 x 1.024 ou 2.048 x 2.048 pixels. Os elementos in- 
dividuais de aquisição de imagens dessas câmeras são qua- 
drados medindo 8 x 8 pm e os espaços entre os elemen- 
tos são de 2 pm. Para essa aplicação, as câmeras custam 
muito mais do que as lentes, de forma que o problema 
deve ser solucionado com a câmera de menor resolução 
possível, com base na escolha das lentes. Como consul- 
tor, você deve fornecer uma recomendação por escrito, 
demonstrando com razoável nível de detalhes a análise 
que levou à sua conclusão. Utilize a mesma geometria de 
aquisição de imagens sugerida no Exercício 2.5. 


Capítulo 


3 Transformações de intensidade 


e filtragem espacial 


Faz toda a diferença enxergar a escuridão através da 
luz ou a claridade através das sombras. 
David Lindsay 


Apresentação 


A expressão domínio espacial se refere ao próprio plano imagem, e os métodos de processamento de ima- 
gens nessa categoria se baseiam na manipulação direta de pixels em uma imagem. Isso se contrasta com o 
processamento de imagens em um domínio da transformada, que, como vimos rapidamente na Seção 2.6.7 
e discutiremos em mais detalhes no Capítulo 4, envolve primeiro transformar uma imagem no domínio 
da transformada, realizar o processamento nesse domínio e obter a transformada inversa para retornar os 
resultados ao domínio espacial. As duas principais categorias do processamento espacial são transformações 
de intensidade e filtragem espacial. Como veremos neste capítulo, as transformações de intensidade ope- 
ram individualmente nos pixels de uma imagem, principalmente para fins de manipulação de contraste e 
limiarização de imagem. A filtragem espacial lida com a realização de operações como o realce de imagens, 
trabalhando na vizinhança de cada pixel de uma imagem. Nas seções a seguir, discutiremos várias técnicas 
“clássicas” de transformações de intensidade e filtragem espacial. Também veremos em alguns detalhes téc- 
nicas fuzzy (difusas) que nos permitem incorporar informações imprecisas, baseadas em conhecimento, na 


formulação de algoritmos de transformações de intensidade e filtragem espacial. 


3.1 Fundamentos 


3.1.1 Os fundamentos das transformações de 
intensidade e filtragem espacial 


Todas as técnicas de processamento de imagem dis- 
cutidas nesta seção são implementadas no domínio espa- 
cial, que, como sabemos com base na análise da Seção 
2.4.2, se trata simplesmente do plano contendo os pixels 
de uma imagem. Como observado na Seção 2.6.7, as téc- 
nicas de domínio espacial atuam diretamente nos pixels 
de uma imagem em oposição, por exemplo, ao domínio de 
frequência (o tópico do Capítulo 4), no qual as operações 
são realizadas na transformada de Fourier de uma ima- 
gem, e não na própria imagem. Como veremos ao longo 


do livro, algumas tarefas de processamento de imagens 
são mais fáceis ou fazem mais sentido se implementadas 
no domínio espacial, ao passo que outras são mais ade- 
quadas para outras abordagens. Em geral, as técnicas no 
domínio espacial são computacionalmente mais eficien- 
tes e requerem menos recursos de processamento para 
serem realizadas. 


Os processos no domínio espacial que discutiremos 
neste capítulo podem ser expressos por: 


g(x, y) = Tf, y)] 


onde f(x, y) é a imagem de entrada, g(x, y) é a imagem 
de saída, e T é um operador em f definido em uma vizi- 
nhança do ponto (x, y). O operador pode ser aplicado a 


(3.1-1) 


uma única imagem (nosso principal foco neste capítulo) 
ou a um conjunto de imagens, como no procedimento de 
soma pixel por pixel de uma sequência de imagens para 
a redução de ruídos, como discutimos na Seção 2.6.3. A 
Figura 3.1 mostra a aplicação básica da Equação 3.1-1 em 
uma única imagem. O ponto (x, y) mostrado é uma po- 
sição arbitrária na imagem, e a pequena região contendo 
o ponto é uma vizinhança de (x, y), como explicado na 
Seção 2.6.5. Em geral, a vizinhança é retangular, centra- 
da em (x, y) e tem tamanho muito menor que a imagem.” 


O processo ilustrado na Figura 3.1 consiste em mo- 
ver a origem da vizinhança de um pixel ao outro e aplicar 
o operador T aos pixels na vizinhança para gerar a saída 
nessa posição. Dessa forma, para qualquer posição especi- 
fica (x, y), o valor da imagem de saída g nessas coordenadas 
é igual ao resultado da aplicação de T à vizinhança com 
origem em (x, y) na imagem f. Por exemplo, suponha que a 
vizinhança seja um quadrado de tamanho 3 x 3 e que 
o operador T seja definido como “calcular a intensidade 
média da vizinhança”. Considere uma posição arbitrária 
em uma imagem, digamos (100, 150). Supondo que a 
origem da vizinhança seja no seu centro, o resultado, 
g(100, 150), nessa posição é calculado como a soma de 
f(100, 150) e seus vizinhos-8, dividida por 9 (isto é, a 
intensidade média dos pixels contidos na vizinhança). 


Origem 
a = 
Vizinhança 3 x 3 de (x, y) 
Imagem f 
Domínio espacial 
x 
Figura 3.1 Uma vizinhança 3 x 3 ao redor de um ponto (x, y) em uma 


imagem no domínio espacial. A vizinhança é movida pixel a pixel na 
imagem para gerar uma imagem de saída. 


Outros formatos de vizinhança, com aproximações digitais de cir- 
culos, por vezes são utilizados, mas os formatos retangulares são 
os mais comuns por serem muito mais fáceis de serem implemen- 
tados computacionalmente. 
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A origem da vizinhança é, então, movida para a próxima 
posição e o procedimento é repetido para gerar o próximo 
valor da imagem de saída g. Normalmente, o processo tem 
início no canto superior esquerdo da imagem de entrada 
e avança pixel por pixel em uma varredura horizontal, 
uma linha por vez. Quando a origem da vizinhança se 
localizar na borda da imagem, parte da vizinhança ficará 
fora dela. O procedimento consiste em ignorar os vizi- 
nhos externos nos cálculos especificados por T ou preencher 
a imagem com uma borda de Os ou outros valores de 
intensidade predefinidos. A espessura da borda de preen- 
chimento depende do tamanho da vizinhança. Retoma- 
remos esse ponto na Seção 3.4.1. 


Como discutiremos em detalhes na Seção 3.4, o 
procedimento que acabamos de descrever é chamado de fil- 
tragem espacial, no qual a vizinhança, acompanhada de 
uma operação predefinida, é chamada de filtro espacial 
(também denominada máscara espacial, kernel, template ou 
janela). O tipo de operação realizada na vizinhança deter- 
mina a natureza do processo de filtragem. 


A menor vizinhança possível tem tamanho 1 x 1. 
Nesse caso, g depende apenas do valor de fem um único 
ponto (x, y), e Tna Equação 3.1-1 se torna uma função de 
transformação de intensidade (também chamada de função 
de transformação de níveis de cinza ou de função de mapea- 
mento) da forma: 


s= T(r) (3.1-2) 


onde, para simplificar a notação, s e r são variáveis que 
indicam, respectivamente, a intensidade de g e fem qual- 
quer ponto (x, y). Por exemplo, se T(r) tiver a forma da 
Figura 3.2(a), o efeito da aplicação da transformação a 
cada pixel de f para gerar os pixels correspondentes em g 
seria produzir uma imagem de maior contraste do que a 
original, escurecendo os níveis de intensidade abaixo de 
k e clareando os níveis acima de k. Nessa técnica, algumas 
vezes chamada de alargamento de contraste (veja a Seção 
3.2.4), os valores de r menores que k são comprimidos 
pela função de transformação em uma faixa estreita de 
s, na direção do nível mais escuro. O oposto se aplica a 
valores de r maiores que k. Observe como um valor de 
intensidade r, é mapeado para obter o valor correspon- 
dente s,. No caso limite mostrado na Figura 3.2(b), T(r) 
produz uma imagem de dois níveis (binária). Um mape- 
amento dessa forma é chamado de função de limiarização 
(thresholding). Algumas metodologias de processamento 
relativamente simples, ainda que poderosas, podem ser 
formuladas com base nas funções de transformação de 
intensidade. Neste capítulo, utilizaremos as transforma- 
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Figura 3.2 Funções de transformação de intensidade. (a) Função de 
alargamento de contraste. (b) Função de limiarização. 


ções de intensidade principalmente para o realce de ima- 
gens. No Capítulo 10, elas são utilizadas na segmentação 
de imagens. Procedimentos cujos resultados dependem 
somente da intensidade em um ponto são, por vezes, 
chamadas de técnicas de processamento ponto a ponto, em 
oposição a técnicas de processamento por vizinhança, discu- 
tidas anteriormente nesta seção. 


3.1.2 Sobre os exemplos deste capitulo 


Apesar de as transformações de intensidade e filtragem 
espacial cobrirem uma ampla variedade de aplicações, 
a maioria dos exemplos apresentados neste capítulo é 
de aplicações para o realce de imagens. Realce é o pro- 
cesso de manipular uma imagem de forma que o resultado 
seja mais adequado do que o original para uma aplicação 
específica. A palavra específica é importante neste contexto, 
porque reconhece desde o início que as técnicas de realce 
são orientadas ao problema. Dessa forma, por exemplo, 
um método bastante útil para realçar imagens de raios X 
pode não ser a melhor técnica para realçar imagens de 
satélite capturadas na banda infravermelha do espectro 
eletromagnético. Não existe uma “teoria” geral para o 
realce de imagens. Quando uma imagem é processada 
para a interpretação visual, o observador é o juiz em 
relação ao desempenho de um método particular. Ao 
lidar com a percepção por máquina, é mais fácil quan- 
tificar uma determinada técnica. Por exemplo, em um 
sistema de reconhecimento automático de caracteres, o 
método de realce mais apropriado é aquele que resulta 
na melhor taxa de reconhecimento, desconsiderando 
outros fatores, como os requisitos computacionais de 
um método em relação a outro. 


Independentemente da aplicação ou do método uti- 
lizado, contudo, o realce de imagens é uma das áreas mais 
visualmente interessantes do processamento de imagens. 
Por sua própria natureza, os iniciantes no processamento 
de imagens costumam considerar as aplicações de realce 
interessantes e de compreensão relativamente simples. 


Dessa forma, utilizar exemplos de realce de imagens para 
ilustrar os métodos de processamento espacial aborda- 
dos neste capítulo, não apenas evita termos um capítulo 
adicional no livro dedicado exclusivamente ao realce de 
imagens, como também, e o mais importante, constitui 
um método eficaz para apresentar aos iniciantes os deta- 
lhes das técnicas de processamento no domínio espacial. 
Como você verá ao longo do livro, o material básico ex- 
plicado neste capítulo se aplica a um escopo muito mais 
amplo do que somente o realce de imagens. 


3.2 Algumas funções básicas de 
transformação de intensidade 


As transformações de intensidade estão entre as 
mais simples de todas as técnicas de processamento de 
imagens. Os valores dos pixels antes e depois do proces- 
samento serão representados por r e s, respectivamente. 
Como indicado na seção anterior, esses valores estão re- 
lacionados por uma expressão da forma s = T(r), onde T 
é uma transformação que mapeia um valor de pixel rem 
um valor de pixel s. Como estamos lidando com variáveis 
digitais, os valores de uma função de transformação nor- 
malmente são armazenados em um arranjo unidimensio- 
nal e os mapeamentos de r em s são implementados por 
meio de buscas em tabelas indexadas (table lookups). Para 
um ambiente de 8 bits, uma tabela indexada contendo os 
valores de T terá 256 entradas. 


Como uma introdução às transformações de inten- 
sidade, vejamos a Figura 3.3, que mostra três tipos básicos 
de funções frequentemente utilizadas para o realce de 
imagens: linear (transformações de negativo e de iden- 
tidade), logarítmica (transformações de log e log inverso) 
e de potência (transformações de n-ésima potência e 
n-ésima raiz). A função identidade é o caso trivial no qual 
as intensidades de saída são idênticas às intensidades de 
entrada. Ela foi incluída no gráfico só para uma abran- 
gência completa. 
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O negativo de uma imagem com níveis de inten- 
sidade na faixa [0, L — 1] é obtido utilizando a trans- 
formação de negativo mostrada na Figura 3.3, dada pela 
expressão: 


s=L-1-r (3.2-1) 


Reverter os níveis de intensidade de uma imagem 
dessa maneira produz o equivalente a um negativo fo- 
tográfico. Esse tipo de processamento é particularmente 
adequado para realçar detalhes brancos ou cinza incor- 
porados a regiões escuras de uma imagem, especialmente 
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Figura 3.3 Algumas funções básicas de transformação de intensi- 
dade. Todas as curvas foram ajustadas para o intervalo mostrado. 


quando as áreas escuras são dominantes em termos de 
tamanho. A Figura 3.4 mostra um exemplo. A imagem 
original é uma mamografia digital mostrando uma peque- 
na lesão. Apesar de o conteúdo visual ser o mesmo nas 
duas imagens, observe como é mais fácil analisar o tecido 
mamário no negativo da imagem neste caso particular. 


3.2.2 Transformações logaritmicas 


A forma geral da transformação logaritmica na Fi- 
gura 3.3 é: 


(3.2-2) 


onde c é uma constante e considera-se que r > 0. O for- 
mato da curva logarítmica na Figura 3.3 mostra que essa 
transformação mapeia uma faixa estreita de baixos valo- 
res de intensidade de entrada em uma faixa mais ampla 


s=e log (1 +7) 


(a) Mamografia digital original. (b) Negativo da imagem 
obtido utilizando a função de transformação da Equação 3.2-1. (Corte- 
sia da G.E. Medical Systems.) 


Figura 3.4 
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de níveis de saída. O oposto se aplica aos valores mais 
altos de níveis de intensidade de entrada. Utilizamos uma 
transformação desse tipo para expandir os valores de pi- 
xels mais escuros em uma imagem ao mesmo tempo em 
que comprimimos os valores de nível mais alto. O oposto 
se aplica à transformação logarítmica inversa. 


Qualquer curva que tenha o formato geral das fun- 
ções logarítmicas mostradas na Figura 3.3 realizaria essa 
expansão/compressão dos níveis de intensidade em uma 
imagem, mas as transformações de potência discutidas na 
próxima seção são muito mais versáteis para esse propó- 
sito. A função logarítmica tem a importante característica 
de comprimir a faixa dinâmica das imagens com grandes 
variações de valores de pixels. Uma ilustração clássica 
de uma aplicação na qual os valores de pixels têm uma 
grande faixa dinâmica é o espectro de Fourier, que discu- 
tiremos no Capítulo 4. Por ora, nos concentraremos ape- 
nas nas características das imagens dos espectros. Não é 
incomum encontrarmos valores de espectro variando de 
0 a 10º ou mais. Apesar de o processamento de números 
como esses não apresentar problemas para o computa- 
dor, os sistemas de exibição de imagens geralmente não 
são capazes de reproduzir com fidelidade uma variedade 
tão ampla de valores de intensidade. O efeito final é que um 
grau significativo de detalhes de intensidade pode se per- 
der na exibição de um espectro de Fourier típico. 


Como uma ilustração das transformações logaritmi- 
cas, a Figura 3.5(a) mostra um espectro de Fourier com 
valores variando de 0 a 1,5 x 10°. Quando esses valores 
são linearmente ajustados para serem exibidos em um 
sistema de 8 bits, os pixels mais claros dominam a exibi- 
ção em detrimento dos valores mais baixos (e tão impor- 
tantes quanto) do espectro. O efeito dessa dominância é 
ilustrado pela área relativamente pequena da imagem na 
Figura 3.5(a) que não é percebida como preta. Se, em 
vez de exibir os valores dessa maneira, aplicarmos ini- 
cialmente a Equação 3.2-2 (com c = 1 neste caso) aos 
valores do espectro, a faixa de valores do resultado passa 
a ser de 0 a 6,2, que é a mais apropriada. A Figura 3.5(b) 
mostra o resultado de ajustar linearmente essa nova faixa 
e exibir o espectro no mesmo monitor de 8 bits. A ri- 
queza de detalhes visíveis nessa imagem em comparação 
com uma exibição não modificada do espectro fica clara 
nessas imagens. A maior parte dos espectros de Fourier 
vistos em publicações de processamento de imagens foi 
ajustada dessa forma. 


3.2.3 Transformações de potência (gama) 
As transformações de potência apresentam a forma 
básica: 


s=cr' (3.2-3) 
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Figura 3.5 (a) Espectro de Fourier. (b) Resultado da aplicação da 
transformação logarítmica da Equação 3.2-2 com c= 1. 


sendo c e y constantes positivas. Algumas vezes a Equa- 
ção 3.2-3 é escrita como s = c (r + £)" para incluir uma 
compensação ou offset (isto é, uma saída mensurável 
quando a entrada for zero). No entanto, as compensações 
costumam ser um problema na calibração de monitores 
e, como resultado, costumam ser ignoradas na Equação 
3.2-3. Plotagens de s versus r para varios valores de y são 
mostradas na Figura 3.6. Como no caso da transformação 
logarítmica, curvas de transformação de potência com 
valores de y menores que 1 (fração) mapeiam uma faixa 
estreita de valores escuros de entradas em uma faixa mais 
ampla de valores de saída, com o oposto se aplicando a 
valores mais altos de níveis de entrada. Diferentemente 
da função logarítmica, contudo, notamos aqui toda uma 
classe de curvas de transformação possíveis obtidas sim- 
plesmente por meio da variação de y. Como esperáva- 
mos, vemos na Figura 3.6 que essas curvas geradas com 
valores de y > 1 têm o efeito exatamente oposto que as 
geradas com valores de y < 1. Por fim, notamos que a 
Equação 3.2-3 é reduzida à transformação de identidade 
quando c=y=1. 

Uma série de dispositivos utilizados para a captu- 
ra, impressão e exibição de imagens funciona de acordo 
com uma lei de potência. Por convenção, o expoente na 
equação de potência é chamado de gama (daí a utiliza- 
ção desse símbolo na Equação 3.2-3). O processo utili- 
zado para corrigir esses fenômenos de resposta à lei de 
potência é chamado de correção gama. Por exemplo, dis- 
positivos de tubo de raios catódicos (CRT, de cathode ray 
tube) apresentam uma resposta de intensidade em relação 
à tensão que é uma função de potência, com expoentes 
variando de aproximadamente 1,8 a 2,5. No que se refere 
à curva para y = 2,5 na Figura 3.6, vemos que sistemas 
de exibição de imagens como esses tenderiam a produ- 
zir imagens mais escuras que o pretendido. Esse efeito 
é ilustrado na Figura 3.7. A Figura 3.7(a) mostra uma 
imagem de variação gradativa de intensidade (gradiente) 
exibida em um monitor. Como esperado, a imagem de 
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Figura 3.6 Plotagens da equação s = cr? para vários valores de y 
(c = 1 em todos os casos). Todas as curvas foram ajustadas para se 
adequar à faixa mostrada. 


saída no monitor parece mais escura que a imagem origi- 
nal de entrada, como mostra a Figura 3.7(b). A correção 
gama nesse caso é direta. Tudo o que precisamos fazer 
é pré-processar a imagem de entrada antes de exibi-la 
no monitor, realizando a transformação s = r">? = 14, O 
resultado é mostrado na Figura 3.7(c). Quando exibida 
no mesmo monitor, a entrada transformada pela corre- 
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Figura 3.7 (a) Imagem com variação gradativa de intensidade (gra- 
diente). (b) Imagem vista em um monitor simulado com gama igual 
a 2,5. (c) Inagem com correção gama. (d) Imagem corrigida vista no 
mesmo monitor. Compare (d) e (a). 


ção gama produz uma saída mais parecida com a imagem 
original, como mostra a Figura. 3.7(d). Uma análise si- 
milar pode ser aplicada a outros dispositivos de geração 
de imagens, como digitalizadores e impressoras. A única 
diferença seria o valor de gama, que depende do disposi- 
tivo (Poynton, 1996). 


A correção gama é importante quando uma ima- 
gem precisa ser exibida na tela de um computador como 
exatidão. Imagens que não são adequadamente corrigi- 
das podem ter uma aparência desbotada ou, o que é mais 
provável, escura demais. Tentar reproduzir as cores com 
exatidão também requer algum conhecimento da corre- 
ção gama porque a variação do valor de gama altera não 
apenas a intensidade como também as proporções de ver- 
melho, verde e azul em uma imagem colorida. A correção 
gama tem se tornado cada vez mais relevante nos últimos 
anos, à medida que o uso de imagens digitais para fins 
comerciais na Internet tem aumentado. Não é incomum 
que imagens criadas para um site popular da rede sejam 
vistas por milhões de pessoas, a maioria das quais com 
diferentes monitores e/ou configurações de monitor. Al- 
guns sistemas de computador chegam a incorporar corre- 
ção gama parcial. Além disso, padrões atuais de imagens 
não contêm o valor de gama com o qual uma imagem foi 
criada, complicando ainda mais a questão. Dadas essas 
limitações, uma metodologia razoável para armazenar 
imagens em um site na Internet é pré-processar as ima- 
gens com um valor gama que represente uma “média” 
dos tipos de monitores e sistemas computacionais dispo- 
níveis comercialmente naquele determinado momento. 


Exemplo 3.1 Realce de contraste utilizando 


transformações de potência. 


Além da correção gama, as transformações de potência 
são úteis para a manipulação de contraste para uso geral. A 
Figura 3.8(a) mostra uma imagem de ressonância magnética 
(MRI) de uma coluna vertebral humana na região torácica 
superior com uma fratura-luxação e pinçamento medular. A 
fratura é visível perto do centro vertical da medula, aproxi- 
madamente um quarto para baixo em relação à borda su- 
perior da imagem. Como a imagem é predominantemente 
escura, uma expansão dos níveis de intensidade é desejável. 
Isso pode ser feito com uma transformação de potência uti- 
lizando um expoente fracionário (y< 1). As outras imagens 
mostradas na figura foram obtidas por meio do processa- 
mento da Figura 3.8(a) com a função de transformação de 
potência da Equação 3.2-3. Os valores de gama correspon- 
dentes às imagens (b) a (d) são 0,6, 0,4 e 0,3, respectiva- 
mente (o valor de c é 1 em todos os casos). Notamos que, à 
medida que gama foi reduzido de 0,6 a 0,4, mais detalhes se 
tornaram visíveis. Uma redução adicional de gama para 0,3 
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Figura 3.8 (a) Imagem de ressonância magnética (MRI) de uma 
coluna vertebral humana fraturada. (b) a (d) Resultados da aplicação 
da transformação na Equação 3.2-3 com c = 1 e y = 0,6, 0,4 e 0,3, 
respectivamente. (Imagem original: cortesia do Dr. David R. Pickens, 
Departamento de Radiologia e Ciências Radiológicas, Centro Médico 
da Universidade de Vanderbilt.) 


aumentou um pouco mais os detalhes do fundo da imagem, 
mas já começou a reduzir o contraste, de modo que a ima- 
gem passou a ter uma aparência ligeiramente “desbotada”, 
sem brilho, especialmente no fundo. Ao comparar todos os 
resultados, vemos que o maior realce em termos de contras- 
te e detalhes discerniveis foi obtido com y = 0,4. Um valor de 
7 = 0,3 é um limite aproximado abaixo do qual o contraste 
para essa imagem especificamente seria reduzido a um nível 
inaceitável. 

a 


= 
Exemplo 3.2 Uma outra ilustração das transformações 
de potência. 

A Figura 3.9(a) mostra o problema oposto ao da Figu- 
ra 3.8(a). A imagem a ser processada agora tem uma apa- 
rência desbotada, indicando que a compressão dos níveis 
de intensidade é desejável. Isso pode ser realizado com a 
Equação 3.2-3 utilizando valores de y maiores do que 1. Os 
resultados do processamento da Figura 3.9(a) com y = 3,0, 
4,0 e 5,0 são mostrados nas figuras 3.9(b) a (d). Resultados 
adequados foram obtidos com valores de gama iguais a 3,0 
e 4,0, e o último apresentou uma aparência ligeiramente 
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Figura 3.9 
mente. (Imagem original: cortesia da Nasa.) 


melhor graças ao maior contraste. O resultado obtido com 
y= 5,0 apresenta áreas muito escuras, nas quais alguns de- 
talhes são perdidos. A região escura à esquerda da estrada 
principal no quadrante superior esquerdo é um exemplo de 
uma área assim. 

E 


32.4 Funções de transformação linear definidas 
por partes 


Uma abordagem complementar aos métodos discu- 
tidos nas três seções anteriores consiste na utilização de 
funções lineares definidas por partes. A principal vantagem 
das funções lineares por partes sobre os tipos de funções 
que discutimos até agora é que a forma das funções por 
partes pode ser arbitrariamente complexa. De fato, como 
veremos em breve, a implementação prática de algumas 
transformações importantes só pode ser formulada como 
funções por partes. A principal desvantagem das funções 
por partes consiste no fato de sua especificação requerer 
consideravelmente mais dados de entrada do usuário. 


(a) Imagem aérea. (b) a (d) Resultados da aplicação da transformação na Equação 3.2-3 com c= 1 e y=3,0, 4,0 e 5,0, respectiva- 


Alargamento de contraste 


Uma das mais simples funções lineares definidas 
por partes é a transformação de alargamento de contras- 
te. Imagens de baixo contraste podem resultar de uma 
iluminação ruim, de uma faixa dinâmica insuficiente no 
sensor de imagem ou até mesmo de uma configuração 
errada da abertura de uma lente no momento da aqui- 
sição da imagem. O alargamento de contraste é um proces- 
so que expande a faixa de níveis de intensidade de uma 
imagem de modo a incluir todo o intervalo de intensida- 
des do meio de gravação ou do dispositivo de exibição. 


A Figura 3.10(a) mostra uma transformação típica 
utilizada para o alargamento de contraste. As posições 
dos pontos (r,, s,) e (r, s,) controlam o formato da função 
de transformação. Ser = s, er,=s, a transformação é 
uma função linear que não produz nenhuma alteração 
nos níveis de intensidade. Se r, = r,s, =0es,=L-1,a 
transformação se torna uma função de limiarização que cria 
uma imagem binária, como ilustrado na Figura 3.2(b). Os 
valores intermediários de (r,, s,) e (r, s,) produzem vários 


Nível de intensidade de saída, s 


0 
0 L/4 


Nível de intensidade de entrada, r 


L/2 3L/4 L-1 
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Figura 3.10 Alargamento de contraste. (a) Forma da função de transformação. (b) Uma imagem de baixo contraste. (c) Resultado do alarga- 
mento de contraste. (d) Resultado da limiarização. (Imagem original: cortesia do Dr. Roger Heady, Faculdade de Pesquisas em Ciências Biológicas, 


Universidade Nacional Australiana, Camberra, Austrália.) 


graus de expansão dos níveis de intensidade da imagem 
de saída, afetando, assim, seu contraste. Em geral, pres- 
supõe-se que r, <r,es Ss, de forma que a função tenha 
um valor único e seja monotonicamente crescente. Essa 
condição mantém a ordem dos níveis de intensidade, 
prevenindo, assim a criação de artefatos de intensidade 
na imagem processada. 


A Figura 3.10(b) mostra uma imagem de 8 bits com 
baixo contraste. A Figura 3.10(c) mostra o resultado do 
alargamento de contraste, obtido definindo (r,,5,) = (a 9) 
e (ry $) = (Taa L- 1), onde rfam E Tna são os níveis mí- 
nimo e máximo de intensidade da imagem, respectiva- 
mente. Dessa forma, a função de transformação alargou 
linearmente os níveis de seu intervalo original para o 
intervalo completo [0, L — 1]. Por fim, a Figura 3.10(d) 
mostra o resultado da aplicação da função de limiariza- 
ção definida anteriormente, com (r, s,) = (m, 0) e (r, s,) 
= (m, L — 1), sendo m o nível médio de intensidade da 
imagem. A imagem original na qual esses resultados se 
baseiam é uma imagem de grãos de pólen, gerada por 
microscópio eletrônico de varredura e ampliada aproxi- 


madamente 700 vezes. 


Fatiamento de níveis de intensidade 


Frequentemente, pode ser interessante enfatizar 
um intervalo específico de intensidades em uma imagem. 
As aplicações incluem realce de características como mas- 
sas de água em imagens de satélite e realce de falhas em 
imagens de raios X. O processo, muitas vezes chamado de 
fatiamento de níveis de intensidade, pode ser implementado 
de várias formas, mas a maioria constitui uma variação 
de dois temas básicos. Uma metodologia consiste em exi- 
bir em um valor (digamos, o branco), todos os valores na 
faixa de interesse e, em outro (digamos, o preto), todas 
as outras intensidades. Essa transformação, mostrada na 
Figura 3.11(a), produz uma imagem binária. A segun- 
da metodologia, baseada na transformação da Figura 
3.11(b), clareia (ou escurece) a faixa desejada de intensi- 
dades, mas mantém inalterados todos os outros níveis de 
intensidade da imagem. 


= 
Exemplo 3.3 Fatiamento de níveis de intensidade. 


A Figura 3.12(a) é um angiograma da aorta próximo 
da região dos rins (veja a Seção 1.3.2 para uma explicação 
mais detalhada dessa imagem). O objetivo desse exemplo é 
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Figura 3.11 
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(a) Essa transformação enfatiza a faixa de intensidades [A, B] e reduz todas as outras intensidades a um nivel mais baixo. (b) Essa 


transformação enfatiza a faixa [A, B] e preserva todos os outros níveis de intensidade. 


utilizar o fatiamento de níveis de intensidade para enfatizar 
os principais vasos sanguíneos que parecem mais claros 
como resultado de uma substância de contraste que foi 
injetada. A Figura 3.12(b) mostra o resultado da utilização 
de uma transformação da forma da Figura 3.11(a), com a 
faixa selecionada próxima ao topo da escala, já que a faixa 
de interesse é mais clara que o fundo. O resultado final des- 
sa transformação é que o vaso sanguíneo e partes dos rins 
parecem brancos, ao passo que todas as outras intensidades 
são pretas. Esse tipo de realce produz uma imagem biná- 
ria e é útil para estudar a forma do fluxo da substância de 
contraste (para detectar, por exemplo, pontos de obstrução). 


Se, por outro lado, quisermos nos concentrar nos va- 
lores reais de intensidade da região de interesse, podemos 
utilizar a transformação da Figura 3.11(b). A Figura 3.12(c) 
mostra o resultado da utilização de uma transformação 
como essa, na qual uma faixa de intensidades na região do 
cinza médio em torno da intensidade média da imagem foi 
definida como preto, ao passo que todas as outras intensida- 
des foram mantidas inalteradas. Neste exemplo, vemos que 
a tonalidade do nível de cinza dos principais vasos sanguí- 


neos e parte da área do rim foram mantidas intactas. Um 
resultado assim pode ser útil quando o interesse é medir o 
fluxo real da substância de contraste em função do tempo 
em uma série de imagens. 

= 


Fatiamento por planos de bits 


Os pixels são números digitais compostos de bits. 
Por exemplo, a intensidade de cada pixel em uma ima- 
gem em escala de cinza de 256 níveis é composta de 8 bits 
(isto é, um byte). Em vez de enfatizar faixas de intensi- 
dade, poderíamos enfatizar a contribuição feita à aparên- 
cia final da imagem por bits específicos. Como ilustra a 
Figura 3.13, uma imagem de 8 bits pode ser considerada 
composta de oito planos de 1 bit, com o plano 1 contendo 
o bit menos significativo de todos os pixels da imagem, e 
o plano 8, todos os bits mais significativos. 


A Figura 3.14(a) mostra uma imagem em escala de 
cinza de 8 bits, e as figuras 3.14(b) a (i) são seus oito pla- 


Figura 3.12 


(a) Angiograma da aorta. (b) Resultado da utilização da transformação de fatiamento do tipo ilustrado na Figura 3.11(a) com a faixa 


de intensidades de interesse selecionada no extremo superior da escala de cinza. (c) Resultado da utilização da transformação na Figura 3.11(b) 
com a área selecionada ajustada para o preto, de forma que os níveis de cinza na área dos vasos sanguíneos e rins foram preservados. (Imagem 
original: cortesia do Dr. Thomas R. Gest, Faculdade de Medicina da Universidade de Michigan.) 
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Plano de bits 8 
(mais significativo) 


(menos significativo) 


Figura 3.13 Representação em planos de bits de uma imagem de 8 bits. 


nos de 1 bit, com a Figura 3.14(b) correspondendo ao bit 
menos significativo. Observe que os quatro planos de bits 
mais significativos, especialmente os dois últimos, con- 
têm uma boa quantidade dos dados visualmente signifi- 
cativos. Os planos menos significativos contribuem com 
detalhes de intensidades mais sutis na imagem. A imagem 
original tem uma borda cinza cuja intensidade é 194. Ob- 
serve que essa mesma borda é preta (0) em alguns dos 
planos de bits, ao passo que é branca (1) em outros. Para 
entender por que, considere um pixel, digamos, no meio 
da borda inferior da Figura 3.14(a). Os pixels correspon- 
dentes nos planos de bits, começando com o plano mais 
significativo, têm valores 1 1 0 0 0 0 1 0, que correspon- 
dem à representação binária do decimal 194. O valor de 
qualquer pixel na imagem original pode ser reconstruído 
de forma similar a partir de seus pixels correspondentes 
de valor binário nos planos de bits. 


Em termos de funções de transformação de inten- 
sidade, não é difícil demonstrar que a imagem binária do 
oitavo plano de bits de uma imagem de 8 bits pode ser 
obtida pelo processamento da imagem de entrada com 


uma função de limiarização que mapeia todas as inten- 
sidades entre 0 e 127 em 0 e todas as intensidades en- 
tre 128 e 255 em 1. A imagem binária da Figura 3.14(i) 
foi obtida exatamente dessa forma. Deixamos como um 
exercício (Exercício 3.4) a obtenção das funções de trans- 
formação de intensidade para gerar outros planos de bits. 


Costuma ser útil decompor uma imagem em planos 
de bits para analisar a importância relativa de cada bit na 
imagem, um processo que ajuda a determinar a adequa- 
ção do número de bits utilizados para quantizar a ima- 
gem. Além disso, esse tipo de decomposição é útil para 
a compressão de imagens (o tópico do Capítulo 8), no 
qual não são utilizados todos os planos na reconstrução 
de uma imagem. Por exemplo, a Figura 3.15(a) mostra 
uma imagem reconstruída utilizando os planos de bits 8 
e 7. A reconstrução é realizada multiplicando os pixels 
do n-ésimo plano pela constante 2"-!. Isso representa 
apenas converter o n-ésimo bit significativo em um deci- 
mal. Cada plano utilizado é multiplicado pela constante 
correspondente, e todos os planos utilizados são somados 
para obter a imagem em escala de cinza. Dessa forma, 


Figura 3.14 


(a) Uma imagem em escala de cinza de 8 bits com dimensões 500 x 1.192 pixels. (b) a (i) Planos de bits 1 a 8, com o plano de bits 


1 correspondendo ao bit menos significativo. Cada plano de bits é uma imagem binária. 
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Figura 3.15 
com a Figura 3.14(a). 


para obter a Figura 3.15(a), multiplicamos o plano de bits 
8 por 128, o plano de bits 7 por 64, e somamos os dois 
planos. Apesar de as principais caracteristicas da imagem 
original serem restauradas, a imagem reconstruída pare- 
ce ter pouco contraste, especialmente no fundo. Isso não 
é de surpreender, já que dois planos podem produzir ape- 
nas quatro níveis de intensidade distintos. Adicionar o 
plano 6 à reconstrução melhorou a situação, como mos- 
tra a Figura 3.15(b). Observe que o fundo dessa imagem 
tem um falso contorno perceptível. Esse efeito é signi- 
ficativamente reduzido acrescentando o quinto plano à 
reconstrução, como ilustra a Figura 3.15(c). Utilizar mais 
planos na reconstrução não contribuiria de maneira im- 
portante para a aparência dessa imagem. Dessa forma, 
concluímos que armazenar os quatro planos de bits mais 
relevantes nos permitiria reconstruir a imagem original 
em detalhes aceitáveis. Armazenar esses quatro planos 
em vez da imagem original requer 50% menos espaço de 
armazenamento (ignorando considerações sobre arquite- 
tura de memória). 


3.3 Processamento de histograma 


O histograma de uma imagem digital com níveis de 
intensidade no intervalo [0, L — 1] é uma função discre- 
ta h(r,) =n, onde r, é o k-ésimo valor de intensidade e 
n, é o número de pixels da imagem com intensidade r,. 
Costuma-se normalizar um histograma dividindo cada 
um desses componentes pelo número total de pixels da 
imagem, expresso pelo produto MN, onde, geralmente, M 
e N são as dimensões de linha e coluna da imagem. Dessa 
forma, um histograma normalizado é dado por p(r,) = 
r IMN para k=0,1,2,...,L- 1. De modo geral, p(r,) é 
uma estimativa da probabilidade de ocorrência do nível 
de intensidade r, em uma imagem. A soma de todos os 
componentes de um histograma normalizado é igual 1.º 


Histogramas são a base para várias técnicas de pro- 
cessamento no domínio espacial. A manipulação de his- 
togramas pode ser utilizada para o realce de imagens, 
como mostrado nesta seção. Além de fornecer estatísti- 
cas úteis da imagem, veremos em capítulos subsequentes 


* Consulte o site do livro para uma revisão da teoria elementar das 
probabilidades. 


Imagens reconstruídas utilizando (a) planos de bits 8 e 7; (b) planos de bits 8, 7 e 6; e (c) planos de bits 8, 7, 6 e 5. Compare (c) 


que as informações inerentes a histogramas também são 
bastante úteis em outras aplicações de processamento de 
imagens, como compressão e segmentação. Histogramas 
são fáceis de serem calculados utilizando-se um aplicativo 
computacional, e eles também podem ser calculados em 
implementações econômicas de hardware, sendo, dessa 
forma, uma ferramenta popular para o processamento de 
imagens em tempo real. 


Como uma introdução ao processamento de his- 
togramas para transformações de intensidade, observe a 
Figura 3.16, que é a imagem dos grãos de pólen da Fi- 
gura 3.10 mostrada em quatro características básicas em 
relação à intensidade da imagem: escura, clara, baixo 
contraste e alto contraste. O lado direito da figura mos- 
tra os histogramas correspondentes a essas imagens. O 
eixo horizontal de cada histograma corresponde a valores 
de intensidade, r,. O eixo vertical corresponde a valores de 
h(r,) =n, ou p(r,) =n,/MN se os valores forem normaliza- 
dos. Dessa forma, os histogramas podem ser vistos como 
gráficos de h(r,) = n, versus r, ou p(r,) = n,/MN versus r,. 

Notamos na imagem escura que os componentes do 
histograma estão concentrados no lado inferior (escuro) 
da escala de intensidades. De forma similar, os compo- 
nentes do histograma da imagem clara tendem à direção 
do lado superior da escala. Uma imagem com baixo con- 
traste tem um histograma estreito normalmente localiza- 
do no meio da escala de intensidades. Para uma imagem 
monocromática, isso implica uma aparência cinza, desbo- 
tada e sem brilho. Finalmente, vemos que os componen- 
tes do histograma na imagem de alto contraste cobrem 
uma faixa bem ampla da escala de intensidades e, tam- 
bém, que a distribuição de pixels não está muito longe de 
ser uniforme, com poucas linhas verticais sendo muito 
mais altas do que as outras. Intuitivamente, é razoável 
concluir que uma imagem cujos pixels tendem a ocupar 
todo o intervalo de níveis possíveis de intensidade e, além 
disso, tendem a ser distribuídos uniformemente terá uma 
aparência de alto contraste e exibirá uma grande varieda- 
de de tons de cinza. O resultado final será uma imagem 
que mostra boa correspondência em relação aos detalhes 
de nível de cinza e tem uma ampla faixa dinâmica. Em 
breve veremos que é possível desenvolver uma função 
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Histograma de imagem escura 


Histograma de imagem clara 


Histograma de imagem de baixo contraste 


Histograma de imagem de alto contraste 


Figura 3.16 Quatro tipos básicos de imagem: escura, clara, baixo contraste, alto contraste e seus histogramas correspondentes. 


de transformação que pode automaticamente atingir esse 
efeito, com base apenas em informações disponíveis no 
histograma da imagem de entrada. 


33.1 Equalização de histograma 


Considere por um momento valores contínuos de 
intensidade, com a variável r expressando as intensida- 
des de uma imagem a ser processada. Como de costume, 
consideramos que r esteja no intervalo [0, L- 1], com 


r = 0 representando o preto, e r=L— 1 representando o 
branco. Para que r satisfaça essas condições, nos concen- 
traremos nas transformações (mapeamentos de intensi- 
dade) da fórmula: 


s=T(r) O<r<L-1 (3.3-1) 


que produz um nível de intensidade de saída s para todos 
os pixels da imagem de entrada que têm intensidade r. 
Consideramos que: 
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(a) T(r) é uma função monotonicamente’ crescente no 
intervalo 0<r<L-l1;e 
(b)0 < T(r)<L-1para0<r<L-l1. 
Em algumas formulações que discutiremos mais 
adiante, utilizamos o inverso: 


r=T\s) O<s<L-1 (3.3-2) 


neste caso, alteramos a condição (a) para 


(a”) T(r) é uma função estritamente monotonicamente 
crescente no intervalo O<r<L-1. 


O requisito da condição (a), de que T(r) deve ser 
monotonicamente crescente, assegura que os valores de 
intensidade da saída nunca serão invertidos em relação 
aos valores correspondentes de entrada, impedindo, dessa 
forma, a criação de artefatos por reversões de intensidade. 
A condição (b) assegura que o intervalo de intensida- 
des da saída seja o mesmo que o da entrada. Por fim, a 
condição (a’) assegura que o mapeamento inverso de s 
em r será um para um, impedindo, dessa forma, ambigui- 
dades. A Figura 3.17(a) mostra uma função que satisfaz 
as condições (a) e (b). No caso, vemos que é possível que 
múltiplos valores sejam mapeados em um valor único 
e, mesmo assim, satisfaçam essas duas condições. Isto é, 
uma função de transformação monotônica executa um 
mapeamento um para um ou muitos para um. Não há 
problema algum no mapeamento de r em s. No entan- 
to, a Figura 3.17(a) apresenta um problema se quisermos 
recuperar os valores de r unicamente a partir dos valores 
mapeados (o mapeamento inverso pode ser visualizado 


a T(r) 
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Figura 3.17 


invertendo o sentido das setas). Isso seria possível para 
o mapeamento inverso de s, na Figura 3.17(a), mas o ma- 
peamento inverso de s, é um intervalo de valores, o que, 
é claro, em geral nos impede de recuperar o valor 
original de r que resultou em s . Como mostra a Figura 
3.17(b), requerer que T(r) seja estritamente monotônico 
assegura que os mapeamentos inversos tenham um valor 
único (isto é, o mapeamento é um para um nas duas di- 
reções). Esse é um requisito teórico que nos permitirá 
deduzir algumas técnicas importantes de processamento de 
histogramas mais adiante neste capítulo. Como na prática 
lidamos com valores inteiros de intensidade, somos for- 
çados a arredondar todos os resultados a seus valores 
inteiros mais próximos. Dessa forma, quando a condição 
de “estritamente monotônico” não for satisfeita, lidare- 
mos com o problema de uma transformação inversa não 
única procurando as correspondências inteiras mais pró- 
ximas. O Exemplo 3.8 apresenta uma ilustração acerca 
do assunto. 


Os níveis de intensidade em uma imagem podem 
ser vistos como variáveis aleatórias no intervalo [0, L- 1]. 
Um descritor fundamental de uma variável aleatória é 
sua função densidade de probabilidade (PDF, de proba- 
bility density function). Sejam p,(r) e p(s) as PDFs de re s, 
respectivamente, onde os subscritos em p são utilizados 
para indicar que, em geral, p, e p, são funções diferentes. 
Um resultado fundamental da teoria elementar das pro- 
babilidades é que, se p (r) e T(r) são conhecidas e T(r) é 
contínua e diferenciável ao longo do intervalo de valores 


(a) Função monotonicamente crescente, mostrando como múltiplos valores podem ser mapeados em um único valor. (b) Função 


estritamente monotonicamente crescente. Esse é um mapeamento um para um, em ambas as direções. 


Lembre-se de que uma função T(r) é monotonicamente crescente se T(r,) > T(r,) para r, > r,. T(r) é uma função estritamente monotoni- 
camente crescente se T(r,) > T(r,) para r, > r,. Deninições similares se aplicam a funções monotonicamente decrescentes. 


de interesse, então a PDF da variável transformada (ma- 
peada) s pode ser obtida utilizando a simples fórmula : 
dr 


l)=p (E 


Dessa forma, vemos que a PDF da variável de inten- 
sidade da saída s é determinada pela PDF das intensida- 
des da entrada e pela função de transformação utilizada 
[lembre-se de que r e s se relacionam por meio de T(r)]. 


(3.3-3) 


Uma função de transformação de especial impor- 
tância no processamento de imagens tem a forma: 


s=T(r)=(L-1) f p,(w)dw (3.3-4) 


sendo w uma variável local da integração. O lado direito 
dessa equação é reconhecido como a função de distribui- 
ção acumulada (CDF, de cumulative distribution function) da 
variável aleatória r. Como as PDFs são sempre positivas, 
e lembrando que a integral de uma função corresponde 
à área sob a função, segue-se que a função de transfor- 
mação da Equação 3.3-4 satisfaz a condição (a) porque 
a área sob a função não pode diminuir à medida que r 
aumenta. Quando o limite superior dessa equação for 
r=(L-1),a integral será calculada como 1 (a área sob 
uma curva PDF é sempre 1), de forma que o valor máximo 
de s é (L — 1) e a condição (b) também é satisfeita. 

Para encontrar a p(s) correspondente à transfor- 
mação que acabamos de analisar, utilizamos a Equação 
3.3-3. Sabemos, com base na regra de Leibniz do cálculo 
elementar, que a derivada de uma integral definida em 
relação a seu limite superior é o integrando calculado 
nesse limite. Isto é: 


ds dT (r) 
dr dr 


(3.3-5) 


0 E 


Figura 3.18 


— Eq. (3.3-4) > 
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Substituindo esse resultado por dr/ds na Equação 
3.3-3 e tendo em mente que todos os valores de probabi- 
lidade são positivos, temos 


p,(s) =p, (7) 
l 


“ado 


=— 0<s<L-1 
L=1 


dr 
ds 


(3.3-6) 


Reconhecemos a forma de p(s) na última linha 
dessa equação como uma função densidade de probabi- 
lidade uniforme. Em resumo, demonstramos que realizar 
a transformação de intensidade na Equação 3.3-4 gera 
uma variável aleatória, s, caracterizada por uma PDF uni- 
forme. É importante notar, a partir dessa equação, que 
T(r) depende de p (r), mas, como mostra a Equação 3.3-6, 
a p(s) resultante é sempre uniforme, independentemente da 
forma de p (r). A Figura 3.18 ilustra esses conceitos. 


Exemplo 3.4 Ilustração das equações 3.3-4 e 3.3-6. 


Para explicar os conceitos, vejamos o exemplo simples 
a seguir. Suponha que os valores de intensidade (contínuos) 
em uma imagem tenham a PDF 


paraO<r<L-1 


0 para todos os outros intervalos 


Da Equação 3.3-4: 


b 


> S 


0 L=1 


(a) Uma PDF arbitrária. (b) Resultado da aplicação da transformação na Equação 3.3-4 a todos os níveis de intensidade, r. As 


intensidades resultantes, s, têm uma PDF uniforme, independentemente da forma da PDF das intensidades r. 
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Suponha em seguida que formemos uma nova ima- 
gem com intensidades, s, obtida utilizando essa transfor- 
mação; isto é, os valores de s são formados elevando ao 
quadrado os valores de intensidade correspondentes da 
imagem de entrada e dividindo-os por (L - 1). Por exem- 
plo, considere uma imagem na qual L = 10 e suponha que 
um pixel em uma posição arbitrária (x, y) na imagem de entra- 
da tenha intensidade r = 3. Então, o pixel nessa posição da 
nova imagem é s = T(r) = 17/9 = 1. Podemos verificar que 
a PDF das intensidades na nova imagem é uniforme sim- 
plesmente substituindo p (r) na Equação 3.3-6 e utilizando 
o fato de que s = r°/ (L — 1); isto é: 


p,(s) =p, (7) 


=] 


dr 
ds 


2r 
(r-1) 


ds 
dr 


1 
L-1 


sendo que o último passo resulta do fato de r ser não nega- 
tivo e considerarmos L > 1. Como era esperado, o resultado 
é uma PDF uniforme. 

E 


Para valores discretos, lidamos com probabilidades 
(valores de histograma) e somatórios em vez de funções 
densidade de probabilidade e integrais”. Como mencionado 
anteriormente, a probabilidade de ocorrência do nível de in- 
tensidade r, em uma imagem digital é calculada por: 
n= K-0123.,L-1 (3397) 

MN à 
onde MN é o número total de pixels da imagem, n, é o 
numero de pixels com intensidade r, e L é o número de 


a Pri) b Sk 
4 


0,25 + 
0,20 + 
0,15 + 
0,10 + 
0,05 + 


niveis de intensidade possiveis na imagem (por exemplo, 
256 para uma imagem de 8 bits). Como observamos no 
início dessa seção, um gráfico de p (r,) versus r, costuma 
ser chamado de histograma. 

A forma discreta da transformação na Equação 
3.3-4 é: 


L-1) 


mn) (n)- 8 


PE É coil | 


n; 


k 
J=? (3.3-8) 


Dessa forma, uma imagem processada (de saída) é 
obtida mapeando cada pixel da imagem de entrada com 
intensidade r, em um pixel correspondente com nível s, 
na imagem de saída, utilizando a Equação 3.3-8. A trans- 
formação (mapeamento) T(r,) nessa equação é chamada 
de equalização de histograma ou linearização de histograma. 
Não é difícil demonstrar (Exercício 3.10) que essa trans- 
formação satisfaz as condições (a) e (b) definidas ante- 
riormente nesta seção. 

E 
Exemplo 3.5 Uma ilustração simples da equalização de 
histograma. 

Antes de prosseguirmos, será útil analisarmos um 
exemplo simples. Suponha que uma imagem de 3 bits 
(L = 8) de dimensões 64 x 64 pixels (MN = 4096) tenha a 
distribuição de intensidade mostrada na Tabela 3.1, na qual 
os níveis de intensidade são números inteiros no intervalo 
[0, L- 1] = [0,7]. 

O histograma de nossa imagem hipotética é esboçado 
na Figura 3.19(a). Os valores da função de transformação de 
equalização de histograma são obtidos utilizando a Equação 
3.3-8. Por exemplo: 


0 


s =T(%)=7)0P, (11) =7P, (%)) = 133 


ne 
an +-e 


O a) 
P -+------0 


° 
2 


SE) 


= 


Figura 3.19 
transformação. (c) Histograma equalizado. 


º 
=. 
H s 
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m= +-------------@ 


Ilustração da equalização de histograma de uma imagem de 3 bits (8 níveis de intensidade). (a) Histograma original. (b) Função de 


* As condições de monotonicidade definidas anteriormente também se aplicam no caso discreto. Nós simplesmente restringimos os valores 


das variáveis para que elas sejam discretas. 


Tabela 3.1 Distribuição de intensidades e valores de histograma 


para uma imagem digital de 3 bits, 64 x 64 pixels. 


i, n, plr)=n,/MN 
n=0 790 0,19 
n=l 1.023 0,25 
r,=2 850 0,21 
RES 656 0,16 
r=4 329 0,08 
=5 245 0,06 
r=6 122 0,03 
n=l 81 0,02 


De forma similar: 


1 


s= T(r) = 7% p, (r) =7p, (n )+ 7p, (r) = 3,08 
j=0 
e s, = 4,55; 8, = 5,67; 8, = 6,23; s, = 6,65; s, = 6,86; s, = 7,00. 
Essa função de transformação tem o formato de uma escada, 
como mostra a Figura 3.19(b). 


Nesse ponto, os valores de s ainda terão frações por- 
que foram gerados pela soma de valores de probabilidade, 
de forma que os arredondamos para o número inteiro mais 
próximo: 


S,= 1,33 51 S,= 6,23 — 6 
S = 3,08 3 S,= 6,65 > 7 
5S,=4,55 5 S,= 6,86 7 
S, = 5,67 > 6 S,=7,00>7 


Esses são os valores do histograma equalizado. Ob- 
serve que há apenas cinco níveis de intensidade distintos. 
Como r, = 0 foi mapeado em s, = 1, há 790 pixels na imagem 
equalizada do histograma com esse valor (Tabela 3.1). Além 
disso, há nessa imagem 1.023 pixels com um valor de s, = 
3 e 850 pixels com um valor de s, = 5. Contudo, tanto r, 
quanto r, foram mapeados no mesmo valor, 6, de forma que 
há (656 + 329) = 985 pixels na imagem equalizada com esse 
valor. De forma similar, há (245 + 122 + 81) = 448 pixels 
com valor 7 no histograma da imagem equalizada. Dividir 
esses números por MN = 4.096 gerou o histograma equali- 
zado da Figura 3.19(c). 


Como um histograma é uma aproximação de uma 
PDF, e nenhum novo nível de intensidade é criado no pro- 
cesso, histogramas perfeitamente uniformes são raros em 
aplicações práticas da equalização de histograma. Assim, 
diferentemente de seu equivalente contínuo, não pode ser 
provado (em geral) que a equalização de um histograma 
discreto resulta em um histograma uniforme. No entanto, 
como veremos em breve, utilizar a Equação 3.3-8 tende a 
espalhar o histograma da imagem de entrada, de forma que 
os níveis de intensidade da imagem equalizada cubram um 
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intervalo maior da escala de intensidade. O resultado final é 
o realce do contraste. 
= 


Discutimos anteriormente nesta seção as várias van- 
tagens de ter valores de intensidade que cubrem toda a 
escala de cinza. Além de produzir intensidades que te- 
nham essa tendência, o método que acabamos de definir 
tem a vantagem adicional de ser totalmente “automático”. 
Em outras palavras, dada uma imagem, o processo de 
equalização de histograma consiste simplesmente na im- 
plementação da Equação 3.3-8, que se baseia em infor- 
mações que podem ser extraídas diretamente da imagem 
em questão, sem a necessidade da especificação de outros 
parâmetros. Também notamos a simplicidade dos cálcu- 
los necessários para implementar a técnica. 


A transformação inversa de s de volta a r é expressa por: 
(3.3-9) 


Pode ser demonstrado (Exercício 3.10) que essa 
transformação inversa satisfaz as condições (a’) e (b) so- 
mente se nenhum dos níveis, n, k=0,1,2,...,L-1, 
estiver faltando da imagem de entrada, o que, por sua vez, 
significa que nenhum dos componentes do histograma 
da imagem é zero. Apesar de a transformação inversa não 
ser utilizada na equalização de histograma, ela exerce um 
papel central no processo de especificação de histograma 
que será desenvolvido na próxima seção. 


r=Ts)  k=0,1,2,..,L-1 


= 
Exemplo 3.6 Equalização de histograma. 


A coluna da esquerda na Figura 3.20 mostra as quatro 
imagens da Figura 3.16, e a coluna central mostra o re- 
sultado da aplicação da equalização de histograma em cada 
uma dessas imagens. Os três primeiros resultados de cima 
para baixo mostram uma melhora significativa. Como espe- 
rado, a equalização de histograma não teve muito efeito na 
quarta imagem porque as intensidades dessa imagem já co- 
briam toda a escala de intensidade. A Figura 3.21 mostra as 
funções de transformação utilizadas para gerar as imagens 
equalizadas da Figura 3.20. Essas funções foram geradas uti- 
lizando a Equação 3.3-8. Observe que a transformação (4) 
tem um formato praticamente linear, indicando que as en- 
tradas foram mapeadas em saídas praticamente iguais. 


A terceira coluna da Figura 3.20 mostra os histogramas 
das imagens equalizadas. É interessante notar que, ape- 
sar de todos esses histogramas serem diferentes, as imagens 
do histograma equalizado são visualmente muito similares. 
Isso não surpreende porque a diferença básica entre as ima- 
gens da coluna da esquerda se dá em termos de contraste, 
não de conteúdo. Em outras palavras, como as imagens 
têm o mesmo conteúdo, o aumento de contraste resultan- 
te da equalização de histograma foi o suficiente para fazer 
com que quaisquer diferenças de intensidade nas imagens 
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Figura 3.20 Coluna da esquerda: imagens da Figura 3.16. Coluna central: imagens que correspondem aos histogramas equalizados. Coluna da 


direita: histogramas das imagens da coluna central. 


equalizadas fossem visualmente imperceptíveis. Conside- 
rando as significativas diferenças de contraste entre as ima- 
gens originais, esse exemplo ilustra o poder da equalização 
de histograma como uma ferramenta adaptável de realce de 
contraste. 

E 


332 Especificação de histograma 


Como sugerido na análise anterior, a equalização 
de histograma automaticamente determina uma função de 


transformação que busca produzir uma imagem de saída 
que tenha um histograma uniforme. Quando um realce 
automático é desejado, essa é uma boa abordagem por- 
que os resultados dessa técnica são previsíveis, e sua im- 
plementação é fácil. Mostraremos, nesta seção, que há 
aplicações nas quais o realce baseado em um histograma 
uniforme não é a melhor metodologia. Em particular, 
algumas vezes é útil poder especificar o formato do his- 
tograma que desejamos que a imagem processada tenha. 


0 64 128 192 255 


Figura 3.21 Funções de transformação para a equalização de his- 
tograma. As transformações de (1) a (4) foram obtidas a partir dos 
histogramas das imagens (de cima para baixo) na coluna esquerda da 
Figura 3.20 utilizando a Equação 3.3-8. 


O método utilizado para gerar uma imagem processada 
que tenha um histograma específico é chamado de casa- 
mento de histogramas ou especificação de histograma. 


Vamos retomar por um momento as intensidades 
contínuas r e z (consideradas variáveis aleatórias conti- 
nuas), com p (r) e p(z) expressando suas funções densidade 
de probabilidade contínua correspondentes. Nessa nota- 
ção, r e z expressam os níveis de intensidade das imagens 
de entrada e saída (processada), respectivamente. Pode- 
mos estimar p (r) a partir da imagem de entrada, ao passo 
que p (2) é a função densidade de probabilidade especifica- 
da que desejamos que a imagem de saída tenha. 


Seja s uma variável aleatória com a propriedade 


s= T(r)=(L-1) f p, (w)aw 
onde, como antes, w é uma variável local de integração. 


Reconhecemos essa expressão como a versão contínua da 
equalização de histograma dada na Equação 3.3-4. 


(3.3-10) 


Suponha, em seguida, que definamos uma variável 
aleatória z com a propriedade: 


G(z)=(L-1) f p.()át=s 
onde t é uma variável local de integração. Segue, dessas 


duas equações, que G(z) = T(r) e, portanto, z deve satis- 
fazer a condição: 


2=¢ 'T@)| =e") 


(3.3-11) 


(3.3-12) 


A transformação T(r) pode ser obtida com a Equa- 
ção 3.3-10, uma vez que p (r) foi estimada a partir da 
imagem de entrada. De forma similar, a função de trans- 
formação G(z) pode ser obtida utilizando a Equação 
3.3-11, já que p (2) é dada. 
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As equações 3.3-10 a 3.3-12 mostram que uma 
imagem, cujos níveis de intensidade têm uma função 
densidade de probabilidade especificada, pode ser obtida 
a partir de uma dada imagem utilizando o seguinte pro- 
cedimento: 


1. Obtenha p (r) a partir da imagem de entrada e apli- 
que a Equação 3.3-10 para obter os valores de s. 


2. Utilize a PDF especificada na Equação 3.3-11 para 
obter a função de transformação G(z). 


3. Obtenha a transformação inversa z = G"!(s); pelo 
fato de z ser obtida de s, esse processo é um mapea- 
mento de s em z, sendo z os valores desejados. 


4. Obtenha a imagem de saída equalizando, inicial- 
mente, a imagem de entrada por meio da Equação 
3.3-10; os valores dos pixels dessa imagem são os 
valores s. Para cada pixel com valor s na imagem 
equalizada, realize o mapeamento inverso z = G~! (s) 
para obter o pixel correspondente na imagem de saí- 
da. Quando todos os pixels forem processados dessa 
forma, a PDF da imagem de saída será igual à PDF 
especificada. 

E 
Exemplo 3.7 Especificação de histograma. 


Considerando valores contínuos de intensidade, su- 
ponha que a intensidade de uma imagem tenha uma PDF 
p,(r) = 2r /(L- 1)? para 0 <r < (L-1) ep (r) = 0 para outros 
valores de r. Encontre a função de transformação que produ- 
zirá uma imagem cuja PDF da intensidade seja p(z) = 
32 /(L — 1)'para0<z<(L-1)ep(z) = 0 para outros va- 
lores de z. 

Inicialmente, calculamos a transformação de equaliza- 
ção de histograma para o intervalo [0, L- 1]: 


s= T(r)=(L-1) f p, (w)aw 
E Ty 


Por definição, essa transformação é 0 para valores fora 
do intervalo [0, L — 1]. Elevar ao quadrado os valores das 
intensidades de entrada e dividi-los por (L — 1)? produzirá 
uma imagem cujas intensidades, s, têm uma PDF uniforme, 
porque se trata de uma transformação de equalização de 
histograma, como discutido anteriormente. 


Estamos interessados em uma imagem com um histo- 
grama especificado, de forma que calculamos: 


G(z) =(L-1) f p.(w)dw 


3 És Zz 
=. dw = 
Eh Aa 
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ao longo do intervalo [0, L — 1]; essa função, por definição, 
é 0 em todos os outros pontos. Por fim, é necessário que 
G(z) = s, mas G(z) = z3/(L - 1); então 7 / (L-17 =s, e temos: 


z=[(z-1) 5) 


Assim, se multiplicarmos todo pixel do histograma 
equalizado por (L — 1)? e elevarmos o produto à potência 
1/3, o resultado será uma imagem cujas intensidades, z, têm 
a PDF p (2) = 32’/(L — 1)’ no intervalo [0, L- 1], como de- 
sejado. 

Como s = 1º/(L — 1), podemos gerar as intensidades, z, 
diretamente das intensidades, r, da imagem de entrada: 


1/3 
1/3 


=[(L-1r'| 


Y Ea) 


Dessa forma, elevar ao quadrado o valor de cada pixel 
da imagem original, multiplicar o resultado por (L - 1) e 
elevar o produto à potência 1/3 resultará em uma imagem 
cujos níveis de intensidade, z, têm a PDF especificada. Ve- 
mos que o passo intermediário de equalizar a imagem de 
entrada pode ser pulado; tudo o que precisamos é obter a 
função de transformação T(r) que mapeia r em s. Então, os 
dois passos podem ser combinados em uma única transfor- 
mação de r para z. 
E 


Como mostrou o exemplo anterior, a especificação 
de histograma em princípio é direta. Na prática, uma 
dificuldade comum é encontrar expressões analíticas 
significativas para T(r) e G~. Felizmente, o problema é 
bastante simplificado quando lidamos com quantidades 
discretas. O trabalho é o mesmo que na equalização de 
histograma, na qual somente uma aproximação para o 
histograma desejado é obtida. Apesar disso, contudo, al- 
guns resultados muito úteis podem ser obtidos, mesmo 
com aproximações grosseiras. 

A fórmula discreta da Equação 3.3-10 é a transfor- 
mação da equalização de histograma da Equação 3.3-8, 
que repetiremos aqui por conveniência: 


ni 


s, = T(r) = (L— nE) = = 


PERO fa | 


k 
j=0 


(3.3-13) 


onde, como antes, MN é o número total de pixels da ima- 
gem, n, é o número de pixels com intensidade r, e L é o 
número total de níveis de intensidade possíveis na ima- 
gem. De forma similar, dado um valor específico de s, a 


formulação discreta da Equação 3.3-11 envolve o cálculo 
da função de transformação: 


G(z,)=(L-1) <p, (z) (3.3-14) 

i=0 

para um valor de g, de forma que: 
G (z) =5, (3.3-15) 


sendo p (z) 0 i-ésimo valor do histograma especificado. 
Como antes, calculamos o valor desejado de z obtendo a 
transformação inversa: 


z= G7 (s) (3.3-16) 

Em outras palavras, essa operação nos dá um valor 
de z para cada valor de s; assim, ela realiza um mapeamen- 
to de s em z. 


Na prática, não precisamos calcular o inverso de G. 
Como lidamos com níveis de intensidade que são núme- 
ros inteiros (por exemplo, de 0 a 255 para uma imagem 
de 8 bits), basta calcular todos os valores possíveis de G 
utilizando a Equação 3.3-14 para q = 0, 1, 2,..., L-1. 
Esses valores são ajustados e arredondados para os valo- 
res inteiros mais próximos cobrindo o intervalo [0, L- 1]. 
Os valores são organizados em uma tabela. Então, dado 
um determinado valor de s,, procuramos a melhor cor- 
respondência nos valores armazenados na tabela. Se, por 
exemplo, a 64º entrada da tabela for a mais próxima de s, 
então q = 63 (lembre-se que começamos a contagem a par- 
tir de 0), e z, é a melhor solução para a Equação 3.3-15. 
Dessa forma, o determinado valor s, seria associado a Z,, 
(isto é, aquele valor específico de s, seria mapeado em Z,,). 
Como z representa as intensidades utilizadas como base 
para especificar o histograma p (z), segue-se que z, = 0, 
z,=1,...,Z,_,=L-1, de forma que z teria o valor de 
intensidade 63. Repetindo esse procedimento, podemos 
calcular 0 mapeamento de cada valor de s, no valor de 
Z, que é a solução mais próxima para a Equação 3.3-15. 
Esses mapeamentos são a solução para o problema de es- 
pecificação de histograma. 


Lembrando que s, são os valores da imagem do his- 
tograma equalizado, podemos resumir o procedimento 
de especificação de histograma como se segue: 


1. Calcule o histograma p (r) da imagem em questão 
e utilize-o para calcular a transformação de equali- 
zação de histograma na Equação 3.3-13. Arredonde 
os valores resultantes, s,, para o intervalo de núme- 
ros inteiros [0, L- 1]. 

2. Calcule todos os valores da função de transformação 
G utilizando a Equação (3.3-14) para q = 0, 1, 2,..., 
L- 1, onde p (z) são os valores do histograma es- 


i 


pecificado. Arredonde os valores de G para números 
inteiros no intervalo [0, L- 1]. Anote os valores de 
G em uma tabela. 


3. Para cada valor de s, = 0,1,2,...,L-1, utilize os 
valores de G obtidos no passo 2 para encontrar o 
valor correspondente de z , de forma que G(z ) seja 
o mais próximo de s, e grave esses mapeamentos de 
s em z. Quando mais de um valor de z, satisfizer um 
determinado s, (isto é, o mapeamento não é único), 
escolha o menor valor por convenção. 


4. Forme a imagem especificada primeiro equalizando 
o histograma da imagem de entrada e depois mapean- 
do todos os valores dos pixels equalizados, s,, dessa 
imagem no valor correspondente z na imagem espe- 
cificada utilizando os mapeamentos do passo 3. Como 
no caso contínuo, o passo intermediário de equalizar 
a imagem de entrada é conceitual. Esse passo pode 
ser pulado combinando as duas funções de transfor- 


mação, Te G, como demonstra o Exemplo 3.8. 


Como mencionamos anteriormente, para que G” 
satisfaça as condições (a’) e (b), G deve ser estritamen- 
te monotônica, o que, de acordo com a Equação 3.3- 
14, significa que nenhum dos valores p (z) do histograma 
especificado pode ser zero (Exercício 3.10). Ao trabalhar 
com quantidades discretas, o fato de essa condição não 
poder ser satisfeita não representa um problema sério de 
implementação, como sugere o passo 3. O exemplo a se- 
guir ilustra numericamente esse ponto. 


= 
Exemplo 3.8 Um exemplo simples da especificação de 
histograma. 

Vejamos novamente a imagem hipotética 64 x 64 do 
Exemplo 3.5, cujo histograma é repetido na Figura 3.22(a). 
Deseja-se transformar esse histograma de forma que ele te- 
nha os valores especificados na segunda coluna da Tabela 
3.2. A Figura 3.22(b) mostra um esboço desse histograma. 


O primeiro passo do procedimento é obter os valo- 
res ajustados do histograma equalizado, o que fizemos no 
Exemplo 3.5: 


No próximo passo, calculamos todos os valores da fun- 
ção de transformação, G, utilizando a Equação 3.3-14: 
0 
G(z))=7>,p.(2,)=0,00 


j=0 


De forma similar: 


G(z,)= o. (z,)=7|p(z.)+ p(z,)|= 0,00 
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G(z,) =0,00 G(z)=2,45 G(z,) =5,95 
G(z,)=1,05 G(z,)=4,55 G(z,) = 7,00 
Como no Exemplo 3.5, esses valores fracionários são 


convertidos em números inteiros no nosso intervalo válido, 
[0, 7]. Os resultados são: 


G(z,) = 0,00 +0 G(z,) = 2,45 >2 
G(z,) = 0,00 +0 G(z,) = 4,55 —5 
G(z,) = 0,00 +0 G(z,) = 5,95 > 6 
G(z,) = 1,05 >1 G(z,) = 7,00>7 


Esses resultados são resumidos na Tabela 3.3 e a fun- 
ção de transformação é esboçada na Figura 3.22(c). Observe 
que G não é estritamente monotônica, de forma que a con- 
dição (a”) é violada. Assim, utilizamos a abordagem descrita 
no passo 3 do algoritmo para lidar com essa situação. 


No terceiro passo do procedimento, calculamos o menor 
valor de Zy de modo que o valor G(z,) seja o mais próximo 
possível de s,. Fazemos isso para todos os valores de s, para 
criar os mapeamentos necessários de s em z. Por exem- 
plo, s,= 1, e vemos que G(z,) = 1, o que representa uma 
associação perfeita nesse caso, de forma que temos a corres- 
pondência s, — z,. Em outras palavras, cada pixel cujo valor 
e 1 na imagem equalizada do histograma seria mapeado em 
um pixel com valor igual a 3 (na posição correspondente) 
na imagem do histograma especificado. Prosseguindo dessa 
forma, chegamos aos mapeamentos da Tabela 3.4. 


No passo final do procedimento, utilizamos os mapea- 
mentos da Tabela 3.4 para mapear cada pixel na imagem do 
histograma equalizado em um pixel correspondente na ima- 
gem do histograma especificado recém-criado. Os valores do 


a P(x) b P4) 
A A 
0,30 + 0,30 + ° 
025+ o 0,25 + | 
0204 |? 0,20 + ele 
Is; i if 0,15 F a 
mos 41% 0,10 + OERE 
aot i} foi ey 0,05 + oa a 
1 i 1 1 1 1 e j 1 i 1 ! 
AAA + rx AH 2, 
01234567 01234567 
c 
º e 
º º ! 
Pid ie 
H j z 
01234567 01234567 
Figura 3.22 (a) Histograma de uma imagem de 3 bits. (b) Histogra- 


ma especificado desejado. (c) Função de transformação obtida a partir 
do histograma especificado desejado. (d) Resultado da especificação do 
histograma. Compare (b) e (dl). 
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Tabela 3.2 Histograma especificado e histograma real (os valores 


da terceira coluna são provenientes dos cálculos reali- 
zados no Exemplo 3.8). 
Especificado Real 

Ze plz) plz) 
z,=0 0,00 0,00 
Z=1 0,00 0,00 
Z=2 0,00 0,00 
Z,=3 0,15 0,19 
z,=4 0,20 0,25 
z=5 0,30 0,21 
z,=6 0,20 0,24 
Z=1 0,15 0,11 


histograma resultante são relacionados na terceira coluna 
da Tabela 3.2, e o histograma é esboçado na Figura 3.22(d). 
Os valores de AA foram obtidos utilizando o mesmo pro- 
cedimento do Exemplo 3.5. Por exemplo, vemos na Tabela 
3.4 que s = 1 é mapeado em z = 3, e que há 790 pixels na 
imagem do histograma equalizado com o valor de 1. Dessa 
forma, p,(z,) = 790/4.096 = 0,19. 


Apesar de o resultado final mostrado na Figura 3.22 (d) 
não corresponder exatamente ao histograma especificado, a 
tendência geral de mover as intensidades da imagem para 
a extremidade superior da escala de intensidade do histo- 
grama definitivamente se concretizou. Como mencionamos 
anteriormente, obter a imagem do histograma equalizado 
como um passo intermediário é útil para explicar o procedi- 
mento, mas não necessário. Em vez disso, poderíamos rela- 
cionar os mapeamentos dos valores de r em s e de s em z em 
uma tabela de três colunas. Então, poderíamos utilizar esses 
mapeamentos para mapear diretamente os pixels originais 
nos pixels da imagem do histograma especificado. 
E 


Número de pixels (x 10*) 7 


Figura 3.23 


Tabela 3.3 Todos os valores possíveis da função de transformação 
G ajustados, arredondados e ordenados em relação a z. 


z G(z,) 
2=0 0 
Z=1 0 
Z=2 0 
7,=3 1 
2,=4 2 
Z=5 5 
z,=6 6 
Z=1 7 


E 

Exemplo 3.9 Comparação entre a equalização 
de histograma e a especificação de 
histograma. 


A Figura 3.23(a) mostra uma imagem da lua de Marte, 
Fobos, obtida pelo Mars Global Surveyor, da Nasa. A Figura 
3.23(b) mostra o histograma da Figura 3.23(a). A imagem é 
dominada por áreas extensas e escuras, resultando em um 
histograma caracterizado por uma grande concentração 
de pixels na extremidade mais escura da escala de cinza. À 
primeira vista, seria possível concluir que a equalização de 
histograma seria uma boa abordagem para melhorar essa 
imagem, de forma que os detalhes nas áreas escuras se tor- 
nariam mais visíveis. Demonstraremos na análise a seguir 
que isso não ocorre neste caso. 


A Figura 3.24(a) mostra a função de transformação da 
equalização de histograma (Equação 3.3-8 ou 3.3-13) obti- 
da a partir do histograma da Figura 3.23(b). A característica 
mais relevante dessa função de transformação é a rapidez na 
qual ela sobe do nível de intensidade O a um nível próximo 
de 190. Isso é causado pela grande concentração de pixels 
no histograma de entrada com níveis próximos de 0. Quan- 


0 | | | 
0 64 128 192 


Intensidade 


255 


(a) Inagem da lua de Marte, Fobos, obtida pelo Mars Global Surveyor, da Nasa. (b) Histograma. (Imagem original: cortesia da Nasa.) 


Tabela 34 Mapeamentos de todos os valores de s,nos valores cor- 
respondentes de z. 


S, = 2 
1 — 3 
3 = 4 
5 > 5 
6 = 6 
7 > 1 


do essa transformação é aplicada aos níveis da imagem de 
entrada para obter o resultado do histograma equalizado, 
o efeito final é o mapeamento de um intervalo muito estrei- 
to de pixels escuros na extremidade superior da escala de 
cinza da imagem de saída. Como vários pixels da imagem 
de entrada apresentam níveis justamente nesse intervalo, 
esperaríamos que o resultado fosse uma imagem com uma 
aparência clara e desbotada. Como mostra a Figura 3.24(b), 
de fato é o que acontece. O histograma dessa imagem é mos- 
trado na Figura 3.24(c). Observe como todos os níveis de in- 
tensidade tendem para a metade superior da escala de cinza. 


Como o problema com a função de transformação da 
Figura 3.24(a) foi causado por uma grande concentração de pi- 
xels na imagem original com níveis próximos de 0, uma me- 
todologia razoável consiste em modificar o histograma dessa 
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imagem de forma que ela não apresente essa propriedade. 
A Figura 3.25(a) mostra uma função manualmente especifi- 
cada que preserva o formato geral do histograma original, 
mas apresenta uma transição mais suave para os níveis da 
região escura da escala de cinza. A amostragem dessa função 
em 256 valores discretos igualmente espaçados produziu 
o histograma especificado desejado. A função de transfor- 
mação G(z), obtida a partir desse histograma utilizando a 
Equação 3.3-14, é indicada como a transformação (1) na Figu- 
ra 3.25(b). De forma similar, a transformação inversa G~! (s) 
da Equação 3.3-16 (obtida utilizando o procedimento passo 
a passo discutido anteriormente) é indicada como a trans- 
formação (2) na Figura 3.25(b). A imagem realçada da Figu- 
ra 3.25(c) foi obtida aplicando a transformação (2) aos pixels 
da imagem do histograma equalizado na Figura 3.24(b). A 
melhora na imagem do histograma especificado em relação 
ao resultado obtido pela equalização de histograma se evi- 
dencia na comparação dessas duas imagens. É interessante 
notar que bastou uma alteração relativamente pequena no 
histograma original para se obter uma melhora significativa 
na aparência. A Figura 3.25(d) mostra o histograma da Figu- 
ra 3.25(c). A característica mais perceptível desse histogra- 
ma é o fato de que sua extremidade inferior se deslocou para 
a direita na direção da região mais clara da escala de cinza 
(mas não excessivamente), como desejado. 

E 


Apesar de provavelmente já estar claro, salientamos, 
antes de concluir esta seção, que a especificação de histo- 
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Figura 3.24 
botada e sem brilho). (c) Histograma de (b). 


255 


(a) Função de transformação para a equalização de histograma. (b) Imagem do histograma equalizado (observe a aparência des- 
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Figura 3.25 
tograma de (c). 


grama é, em grande parte, um processo de tentativa e erro. 
É possível utilizar as orientações aprendidas no exercício 
em questão, com fizemos no exemplo anterior. Pode haver 
casos nos quais é possível determinar como um histogra- 
ma “aproximado” deve parecer e usar isso como o histo- 
grama especificado. Em casos como esses, a especificação 
de histograma passa a ser um processo direto. Em geral, 
contudo, não há regras para especificar histogramas, e de- 
ve-se recorrer à análise caso a caso para qualquer tarefa de 
realce dada. 


3.3.3 Processamento local de histograma 


Os métodos de processamento de histograma discuti- 
dos nas duas seções anteriores são globais, no sentido de 
que os pixels são modificados por uma função de trans- 
formação com base na distribuição de intensidade de 
toda uma imagem. Apesar de esse método global ser 


255 


(a) Histograma especificado desejado. (b) Transformações. (c) Imagem realçada utilizando os mapeamentos da curva (2). (d) His- 


apropriado para o realce geral da imagem, há casos nos 
quais é necessário realçar detalhes em pequenas áreas 
de uma imagem. O número de pixels dessas áreas pode 
ter uma influência desprezível sobre o cálculo de uma 
transformação global cujo formato não necessariamente 
garante o realce local desejado. A solução é elaborar 
funções de transformação com base na distribuição de in- 
tensidade em uma vizinhança de cada pixel da imagem. 


As técnicas de processamento de histograma previa- 
mente descritas são facilmente adaptadas ao realce local. 
O procedimento consiste em definir uma vizinhança e 
mover seu centro de um pixel ao outro. Em cada posição, 
o histograma dos pontos da vizinhança é calculado e uma 
função de equalização de histograma ou de especifica- 
ção de histograma é obtida. Depois disso, essa função é 
utilizada para mapear a intensidade do pixel central da 
vizinhança. O centro da região da vizinhança é, então, 


movido para a posição do pixel adjacente e o procedi- 
mento é repetido. Como apenas uma linha ou coluna da 
vizinhança muda durante uma translação pixel a pixel 
da vizinhança, é possível atualizar o histograma obtido 
na posição anterior com os novos dados em cada passo 
do movimento (Exercício 3.12). Esse método tem claras 
vantagens em relação ao cálculo repetido do histograma 
para todos os pixels da região da vizinhança a cada vez 
que a região é movida uma posição. Outro método ge- 
ralmente usado para reduzir os cálculos é o de utilizar 
regiões que não se sobreponham, mas esse método nor- 
malmente produz um efeito “xadrez” não desejado. 


E 
Exemplo 3.10 Equalização local de histograma. 


A Figura 3.26(a) mostra uma imagem de 8 bits, 

512 x 512, que à primeira vista parece conter cinco quadra- 
dos pretos sobre um fundo cinza. A imagem apresenta um 
ligeiro ruído, que é imperceptível. A Figura 3.26(b) mostra o 
resultado da equalização global de histograma. Como costu- 
ma ser o caso da equalização de histograma de regiões sua- 
ves e com ruído, essa imagem mostra um realce significativo 
do ruído. Além do ruído, contudo, a Figura 3.26(b) não re- 
vela quaisquer novos detalhes relevantes em relação à origi- 
nal, além de uma leve indicação de que o quadrado superior 
esquerdo e o inferior direito contêm um objeto. A Figura 
3.26(c) foi obtida utilizando a equalização local de histogra- 
ma com uma vizinhança de dimensões 3 x 3. No caso, ve- 
mos detalhes significativos contidos nos quadrados escuros. 
Os valores de intensidade desses objetos eram muito próxi- 
mos da intensidade dos quadrados grandes, e suas dimen- 
sões eram pequenas demais para influenciar a equalização 
global de histograma o suficiente para mostrar esse detalhe. 
= 
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3.3.4 Utilizando estatísticas de histograma para o 
realce da imagem 


Estatísticas obtidas diretamente do histograma de 
uma imagem podem ser utilizadas para o realce da ima- 
gem. Seja r uma variável aleatória discreta representando 
os valores de intensidade no intervalo [0, L- 1] e p(r) 
indicando o componente do histograma normalizado 
correspondente ao valor r, Como indicado anteriormente, 
podemos considerar p(r) uma estimativa da probabi- 
lidade de a intensidade r, ocorrer na imagem da qual o 
histograma foi obtido. 


Como discutimos na Seção 2.6.8, o n-ésimo mo- 
mento de rem relação à sua média é definido como: 


(3.3-17) 


onde m é o valor médio (intensidade média) de r (isto é, 
a intensidade média dos pixels da imagem): 


(3.3-18) 


i=0 


O segundo momento é particularmente importante: 
(3.3-19) 


Reconhecemos essa expressão como a variância da 
intensidade, normalmente expressa por o? (lembre que o 
desvio padrão é a raiz quadrada da variância). Enquanto 
a média é uma medida da intensidade média, a variância 
(ou desvio padrão) é uma medida do contraste de uma 
imagem. Observe que todos os momentos são facilmen- 
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(a) Imagem original. (b) Resultado da equalização global de histograma. (c) Resultado da equalização local de histograma aplicada 


Figura 3.26 
em (a), utilizando uma vizinhança de dimensões 3 x 3. 


b 


* Seguimos a convenção na utilização de m para o valor médio. Não confunda com o mesmo símbolo utilizado para expressar o número de 
linhas em uma vizinhança m x n, na qual também utilizamos a convenção notacional. 
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te calculados utilizando as expressões apresentadas, uma 
vez que o histograma tenha sido obtido a partir de uma de- 
terminada imagem. 


Ao trabalhar apenas com a média e a variância, cos- 
tuma-se estimá-las diretamente dos valores amostrados, 
sem considerar o histograma. Apropriadamente, essas es- 
timativas são chamadas de média da amostra e variância da 
amostra. Elas são dadas pelas expressões a seguir, conhe- 
cidas do campo da estatística básica: 


-4 


m=- SS f(x y) 


MN “4 (3.3-20) 
e 
1 M-1 NA 2 
o? 
ART 3.3-21 
mam saem] eaa 
parax=0,1,2,.,M-1ey=0,1,2,...,N- 1. Em 


outras palavras, como já sabemos, a intensidade média de 
uma imagem pode ser obtida pela simples soma dos valores 
de todos os seus pixels, dividindo a soma pelo número 
total de pixels na imagem. Uma interpretação similar 
se aplica à Equação 3.3-21. Como ilustramos no exem- 
plo a seguir, os resultados obtidos utilizando essas duas 
equações são idênticos aos resultados obtidos utilizando 
as equações 3.3-18 e 3.3-19, contanto que o histograma 
utilizado nessas equações seja calculado a partir da mes- 
ma imagem utilizada para as equações 3.3-20 e 3.3-21. 


Exemplo 3.11 Calculando estatísticas de histograma. 


Antes de prosseguir, será útil analisar um simples 
exemplo numérico para consolidar os conceitos. Considere 
a imagem a seguir, de 2 bits e tamanho 5 x 5: 


0 2 


Ny HO 
m= WV Ww N 
We N O ma 
NON Om 
NO Om 


os pixels são representados por 2 bits; dessa forma, L = 4 
e os níveis de intensidade estão no intervalo [0, 3]. O nú- 
mero total de pixels é 25, de forma que o histograma tem os 
componentes: 


* O denominador da Equação 3.3-21 algumas vezes é escrito 
como MN — 1 em vez de MN. Isso é feito para obter uma estima- 
tiva imparcial da variância. No entanto, estamos mais interes- 
sados que as equações 3.3-21 e 3.3-19 se correspondam quando 
o histograma da Equação 3.3-19 é calculado a partir da mesma 
imagem utilizada na Equação 3.3-21. Para isso, precisamos do 
termo MN. A diferença é desprezível para qualquer imagem de 
dimensões práticas. 


p(n) = == 0,24; p(r,) = == 0,28; 


aln)= == 0,28; p(r,)= == 0,20 


onde o numerador em p(r,) é o número de pixels na imagem 
com nivel de intensidade r,. Podemos calcular o valor médio 
das intensidades da imagem utilizando a Equação 3.3-18: 


m= Stela) 
= (0)(0,24)+(1)(0,28) +(2)(0,28) + (3)(0,20) 


= 1,44 


Sendo f(x, y) o arranjo matricial anterior 5 x 5 e utili- 
zando a Equação 3.3-20, obtemos: 


4 


WBS Hes 
— 1,44 


, 


Como esperado, os resultados conferem. Do mesmo 
modo, o resultado para a variância é o mesmo (1,1264) uti- 
lizando a Equação 3.3-19 ou a Equação 3.3-21. 

E 


Consideramos dois usos da média e da variância para 
fins de realce de imagens. A média e a variância globais 
são calculadas ao longo de toda a imagem e são úteis para 
ajustes mais gerais em termos de intensidade e contraste. 
Uma utilização mais poderosa desses parâmetros está no 
realce local, no qual a média e a variância locais são uti- 
lizadas como a base para fazer alterações que dependem 
das características da vizinhança ao redor de cada pixel 
de uma imagem. 


Sejam (x, y) as coordenadas de qualquer pixel de 
uma determinada imagem e S, uma vizinhança (subima- 
gem) de tamanho especificado, centrada em (x, y). O valor 
médio dos pixels dessa vizinhança é dado pela expressão: 


LA 
= 2 7Ps, (r,) 


(3.3-22) 


onde S, é o histograma dos pixels na região S, Esse histo- 
grama tem L componentes, correspondendo aos L valores 
de intensidade possíveis na imagem de entrada. Contu- 
do, muitos dos componentes são 0, dependendo do tama- 
nho de S,. Por exemplo, se a vizinhança tiver dimensões 
3 x 3 e L= 256, apenas entre 1 e 9 dos 256 componentes 
do histograma da vizinhança serão diferentes de zero. Es- 
ses valores diferentes de zero corresponderão ao número 


de diferentes intensidades em S, (0 numero maximo de 
diferentes intensidades possiveis em uma regiao 3 x 3 é 
9,e o mínimo é 1). 

De forma similar, a variância dos pixels na vizi- 
nhança é dada por: 


LA 


aT = 2. =M; 


i=0 
Como antes, a média local é uma medida de inten- 
sidade média na vizinhança Sea variância local (ou 
o desvio padrão) é uma medida de contraste de intensi- 
dade nessa vizinhança. Expressões análogas às equações 
3.3-20 e 3.3-21 podem ser escritas para vizinhanças. 
Simplesmente utilizamos os valores dos pixels das vi- 
zinhanças nos somatórios e o número de pixels da vizi- 
nhança no denominador. 


| es, 0) 


(3.3-23) 


Como o exemplo a seguir ilustra, um aspecto impor- 
tante do processamento de imagens utilizando a média e 
a variância locais consiste na flexibilidade proporcionada 
para o desenvolvimento de técnicas simples, porém po- 
derosas, de realce com base em medidas estatísticas que 
têm relação próxima e previsível com a aparência da ima- 
gem. 


= 
Exemplo 3.12 Realce local utilizando estatísticas de 
histograma. 


A Figura 3.27(a) mostra uma imagem gerada por um 
microscópio eletrônico de varredura de um filamento de 
tungstênio enrolado em um suporte. O filamento está no 
centro da imagem e seu suporte está bastante claro e fácil 
de analisar. Há uma outra estrutura de filamento no lado di- 
reito e escuro da imagem, mas é quase imperceptível, e seu 
tamanho e outras características não são facilmente discer- 
níveis. O realce local pela manipulação do contraste é uma 
abordagem ideal para problemas como este, no qual partes 
de uma imagem podem conter elementos ocultos. 


Figura 3.27 
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Neste caso específico, o problema é realçar as áreas es- 
curas ao mesmo tempo em que se deixa a área clara o mais 
inalterada possível, já que não precisa de realce. Podemos 
utilizar os conceitos apresentados nesta seção para formular 
um método de realce capaz de distinguir a diferença entre 
escuro e claro e, ao mesmo tempo, capaz de realçar somente 
as áreas escuras. Uma medida para saber se uma área é re- 
lativamente clara ou escura em um ponto (x, y) é comparar 
a intensidade média local, Ms, com a intensidade média da 
imagem, chamada de média global e expressa por m,. Este 
valor é obtido com a Equação 3.3-18 ou com a Equação 
3.3-20, utilizando a imagem inteira. Dessa forma, temos o 
primeiro elemento do nosso esquema de realce: considera- 
remos o pixel em um ponto (x, y) como um candidato para 
o processamento se Ms, < kmo, onde k, é uma constante 
positiva com valor menor que 1,0. 


Como estamos interessados em realçar áreas com bai- 
xo contraste, também precisamos de uma medida para de- 
finir se o contraste de uma área faz com que ela seja uma 
candidata ao realce. Consideraremos o pixel em um ponto 
(x, y) como um candidato para o realce se os, < k,o,, sen- 
do o, 0 desvio padrão global obtido utilizando as equações 
3.3-19 ou 3.3-21 e k, uma constante positiva. O valor dessa 
constante será maior que 1,0 se estivermos interessados em 
realçar as áreas claras e menor que 1,0 para as áreas escuras. 


Por fim, precisamos definir os menores valores de con- 
traste que estamos dispostos a aceitar, caso contrário, o proce- 
dimento tentaria realçar áreas constantes, cujo desvio padrão 
é zero. Dessa forma, também definimos um limite inferior 
para o desvio padrão local exigindo que k o, < Os, Com 
k, < k,. Um pixel em (x, y) que satisfaça todas as condições 
para o realce local é processado simplesmente multipli- 
cando-o por uma constante especificada, E, para aumentar 
(ou diminuir) o valor de seu nível de intensidade relativo ao 
restante da imagem. Os pixels que não satisfazem as condi- 
ções de realce não são alterados. 


Resumimos a metodologia anterior como se segue. 
Temos f(x, y) representando o valor de uma imagem de quais- 


e) 


(a) Imagem gerada por um microscópio eletrônico de varredura de um filamento de tungstênio ampliado aproximadamente 130x 


(b) Resultado da equalização global do histograma. (c) Imagem realçada utilizando estatísticas locais de histograma. (Imagem original: cortesia 
do Dr. Michael Shaffer, Departamento de Ciências Geológicas, Universidade de Oregon, Eugene.) 
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quer coordenadas (x, y) da imagem e g(x, y) representando 
o valor realçado correspondente dessas coordenadas. Então: 


MO este 


sem, < kome 

e koç < as S Rã 
f (x, y) para todos os auiesinianyalos 
(3.3-24) 


parax=0,1,2,...,M-ley=0,1,2,...,N-1,sendo que, 
como indicado acima, E, ky k, e k, são parâmetros especifi- 
cados, m, é a média global da imagem de entrada e o, é seu 
desvio padrão. Os parâmetros Ms, € Os, SÃO a média e o des- 
vio padrão locais, respectivamente. M e N são as dimensões 
da imagem em termos de linhas e colunas. 


Escolher os parâmetros na Equação 3.3-24 geralmen- 
te requer alguma experimentação para se familiarizar com 
uma determinada imagem ou categoria de imagens. Nesse 
caso, os valores a seguir foram selecionados: E = 4,0, k, = 
0,4, k, = 0,02 e k, = 0,4. O valor relativamente baixo de 4,0 
para E foi escolhido de forma que, ao ser multiplicado pe- 
los níveis nas áreas que serão realcadas (que são escuras), 0 
resultado ainda tenderia ao extremo mais escuro da escala 
e, dessa forma, preservaria o equilíbrio visual da imagem. O 
valor de k, foi escolhido como menos da metade da média 
global porque podemos ver na imagem que as áreas que re- 
querem realce definitivamente são escuras o suficiente para 
estarem abaixo da metade do valor da média global. Uma 
análise similar levou à escolha dos valores para k, e k,. A 
escolha dessas constantes em geral não é difícil, mas deve 
ser orientada por uma análise lógica do problema de realce 
em questão. Por fim, o tamanho da área local S, deve ser 
o menor possível para preservar detalhes e manter o custo 
computacional o menor possível. Escolhemos uma região de 
tamanho 3 x 3. 


Como uma base para a comparação, realçamos a ima- 
gem utilizando a equalização global de histograma. A Figura 
3.27(b) mostra o resultado. A área escura foi melhorada, 
mas ainda é difícil perceber detalhes, e as áreas claras foram 
alteradas, o que não queríamos fazer. A Figura 3.27(c) mos- 
tra o resultado da utilização do método de estatísticas locais 
explicado nesta seção. Ao comparar essa imagem com a ori- 
ginal na Figura 3.27(a) ou com o resultado da equalização 
de histograma na Figura 3.27(b), observamos os detalhes 
que passaram a ser perceptíveis no lado direito da Figura 
3.27(c). Observe, por exemplo, a nitidez dos contornos dos 
filamentos escuros. Cabe notar que as áreas de intensidade 
mais clara à esquerda foram mantidas intactas, um dos nos- 
sos objetivos iniciais. 

= 


3.4 Fundamentos da filtragem espacial 


Nesta seção, apresentaremos vários conceitos bá- 
sicos que fundamentam a utilização de filtros espaciais 


para o processamento de imagens. A filtragem espacial 
é uma das principais ferramentas utilizadas na área para 
uma ampla gama de aplicações, de forma que recomen- 
damos fortemente que você desenvolva uma sólida com- 
preensão desses conceitos. Como mencionamos no início 
deste capítulo, os exemplos desta seção lidam, em grande 
parte, com a utilização de filtros espaciais para o realce 
de imagem. Outras aplicações da filtragem espacial serão 
discutidas em capítulos posteriores. 


O termo filtro foi emprestado do processamento no 
domínio da frequência, que é o tópico do próximo capí- 
tulo, no qual “filtragem” se refere a aceitar (passar) ou 
rejeitar certos componentes de frequência. Por exemplo, 
um filtro que aceita baixas frequências é chamado de fil- 
tro passa-baixa. O efeito final produzido por um filtro pas- 
sa-baixa é borrar (suavizar) uma imagem. Podemos obter 
uma suavização similar diretamente na própria imagem 
utilizando filtros espaciais (também chamados de más- 
caras, kernels, templates e janelas). De fato, como mostra- 
remos no Capítulo 4, existe uma correspondência um a 
um entre os filtros espaciais lineares e filtros no domínio 
da frequência.” No entanto, os filtros espaciais oferecem 
consideravelmente mais versatilidade porque, como ve- 
remos posteriormente, eles também podem ser utilizados 
para a filtragem não linear, algo que não é possível fazer 
no domínio da frequência. 


3.4.1 O funcionamento da filtragem espacial 


Na Figura 3.1, explicamos brevemente que um filtro 
espacial consiste em (1) uma vizinhança (normalmente 
um pequeno retângulo), (2) uma operação predefinida rea- 
lizada sobre os pixels da imagem incluídos na vizinhança. 
A filtragem cria um novo pixel com coordenadas iguais 
às coordenadas do centro da vizinhança, e cujo valor é o 
resultado da operação de filtragem.” Uma imagem pro- 
cessada (filtrada) é gerada à medida que o centro do filtro 
percorre cada pixel na imagem de entrada. Se a operação 
realizada sobre os pixels da imagem for linear, o filtro é 
chamado de filtro espacial linear. Caso contrário, o filtro 
é não linear. Concentraremos a nossa atenção primeiro 
em filtros lineares e depois ilustraremos alguns filtros não 
lineares simples. A Seção 5.3 apresenta uma lista mais 
abrangente de filtros não lineares e suas aplicações. 


A Figura 3.28 ilustra o funcionamento da filtragem 
espacial linear utilizando uma vizinhança 3 x 3. Em qual- 


Veja a Seção 2.6.2, sobre linearidade. 


* O valor do pixel filtrado normalmente é atribuído a uma posi- 
ção correspondente em uma nova imagem criada para receber os 
resultados da filtragem. Raramente ocorre de os pixels filtrados 
substituírem os valores da posição correspondente na imagem 
original, já que isso alteraria o conteúdo da imagem enquanto a 
filtragem ainda continua sendo realizada. 


Eid da imagem 
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Pixels da imagem + 


is 


f@-1,y-1) 


a 


Coeficientes do filtro 


flw -1,y+1) 


w(0,1) 


w(1,1) 


fc, y — 1) 


fly + 1) 


fla+1,y—1) 


fl + 1,3) 


flw +1,y+1) 


Pixels da seção da imagem 
sob a máscara 


Figura 3.28 0 funcionamento da filtragem espacial linear utilizando uma máscara 3 x 3. A forma escolhida para expressar as coordenadas dos 
coeficientes da máscara simplifica a escrita de expressões para a filtragem linear. 


quer ponto (x, y) da imagem, a resposta, g(x, y), do filtro 
é a soma dos produtos dos coeficientes do filtro com os 
pixels da imagem englobados pelo filtro: 


g(x,y) = w(-1, -1)f(x- 1, y- 1) + w(-1,0)f(x - 1, y) 
+... + w(0,0) f(x,y) +... + W(1,1)f(x + 1, y + 1) 


Observe que o coeficiente central do filtro, w(0, 0), 
se alinha com o pixel da posição (x, y). Para um tamanho 
de máscara m x n, consideramos quem =2a+1 en=2b+1, 
sendo ae b números inteiros positivos. Isso significa que 
nosso foco na discussão a seguir será em filtros de ta- 
manho ímpar, e o menor é de tamanho 3 x 3”. Em geral, 


a filtragem espacial linear de uma imagem de dimensões 
M x N com um filtro de dimensões m x n é dada pela 
expressão: 


T DD w(s,t)F(x4 9-48) 


s=—at=—b 


onde x e y variam de forma que cada pixel em w percorre 
todos os pixels em f. 


* Certamente é possível trabalhar com filtros de tamanho misto 
(par e ímpar). No entanto, trabalhar com tamanhos ímpares sim- 
plifica a indexação e também é mais intuitivo, porque os filtros 
têm centros que encontram valores inteiros. 
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3.4.2 Convolução e correlação espacial 


Há dois conceitos estreitamente relacionados que 
devem ser bem compreendidos ao realizar a filtragem 
espacial linear. Um consiste na correlação, e o outro na con- 
volução. A correlação é o processo de mover uma máscara 
pela imagem e calcular a soma dos produtos em cada posição, 
exatamente como explicado na seção anterior. O fun- 
cionamento da convolução é o mesmo, exceto o fato de o 
primeiro filtro ser rotacionado a 180º. A melhor forma de 
explicar as diferenças entre os dois conceitos é pelo exem- 
plo. Começamos com uma ilustração unidimensional. 


A Figura 3.29(a) mostra uma função unidimen- 
sional, f e um filtro, w, e a Figura 3.29(b) mostra a po- 
sição inicial para realizar a correlação. A primeira coisa 


Correlação 


„~ Origem f w 
(a) 00010000 12328 


t 
(b) 00010000 
1232 8 


t Posição inicial do alinhamento 


Preenchimento 
com zeros 


E 
1 1 
()0000000100000000 


12328 


(dj) 0000000100000000 
12328 


Posição após um deslocamento 


()0000000100000000 
12328 


que observamos é que há partes das funções que não se 
sobrepõem. A solução para esse problema é preencher f 
em cada lado com Os suficientes para permitir que cada 
pixel de w percorra todos os pixels de f.* Se o filtro for de 
tamanho m, precisamos de m — 1 Os em cada lado de f. 
A Figura 3.29(c) mostra uma função preenchida com Os 
de modo apropriado. O primeiro valor da correlação é a 
soma dos produtos de fcom w para a posição inicial mos- 
trada na Figura 3.29(c) (a soma dos produtos é 0). Isso 
corresponde à primeira posição, ou seja, ao deslocamento 
x = 0. Para obter o segundo valor da correlação, desloca- 
mos w uma posição de pixel para a direita (deslocamento 
x = 1) e calculamos a soma dos produtos. O resultado, 
mais uma vez, é 0. Na verdade, o primeiro resultado di- 


Convolução 
i Origem f w rotacionado 180° 
00010000 82321 (i) 
00010000 (j) 
82321 


0000000100000 0 0 0 (k) 


0000000100000000 () 


0000000100000 0 0 0 (m) 


Posição após quatro deslocamentos 


f) 0000000100000000 
12328 
Posição final + 


Resultado da correlação completa 
(g) 000823210000 


Resultado da correlação após recorte 


(h) 08232100 


Figura 3.29 
convolução são funções de deslocamento. 


0000000100000000 (n) 


Resultado da convolução completa 
000123280000 (o) 


Resultado da convolução após recorte 


01232800 (p) 


Ilustração de convolução e correlação unidimensional de um filtro com impulso unitário discreto. Observe que a correlação e a 


Preencher a imagem com zeros não é a única opção. Por exemplo, poderíamos duplicar o valor do primeiro e do úlimo elemento m — 1 
vezes em cada lado de f, ou espelhar o primeiro e o último elemento m — 1 e utilizar os valores espelhados para fazer o preenchimento. 


ferente de zero se dá quando x = 3, que é o caso no qual 
o valor 8 de w se sobrepõe ao valor 1 de fe o resultado 
da correlação é 8. Procedendo dessa forma, obtemos todo 
o resultado da correlação na Figura 3.29(g). Observe que 
foram necessários 12 valores de x (isto é, x = 0, 1, 2, ..., 11) 
para deslocar totalmente w através de f, de forma que 
cada pixel de w percorresse cada pixel de f. Em muitas 
ocasiões, gostamos de trabalhar com arranjos de correla- 
ção do mesmo tamanho que f, caso no qual recortamos 
a correlação completa para corresponder ao tamanho da 
função original, como mostra a Figura 3.29(h). 


Devemos observar dois pontos importantes na dis- 
cussão do parágrafo anterior. Em primeiro lugar, a corre- 
lação é uma função de deslocamento do filtro. Em outras 
palavras, o primeiro valor da correlação corresponde 
ao deslocamento zero do filtro, o segundo corresponde 
ao deslocamento de uma unidade, e assim por diante. O 
segundo ponto a ser observado é que correlacionar um 
filtro w com uma função que contenha apenas 0s e um 
único 1 resulta em uma cópia de w, mas rotacionada a 
180º. Chamamos uma função que contém um único 1, 
e o restante é composto de Os de um impulso unitário dis- 
creto. Dessa forma, concluímos que a correlação de uma 
função com um impulso unitário discreto gera uma ver- 
são rotacionada da função exatamente na posição que 
estava o impulso. 


O conceito da convolução é fundamental na teoria 
dos sistemas lineares. Como veremos no Capítulo 4, uma 
propriedade fundamental da convolução é que realizar 
a convolução de uma função com um impulso unitário 
gera uma cópia da função na posição do impulso. Vimos 
no parágrafo anterior que a correlação também gera 
uma cópia da função, mas rotacionada a 180º.” Dessa 
forma, se pré-rotacionarmos o filtro e realizarmos a mes- 
ma operação de soma dos produtos de cada deslocamen- 
to, devemos ser capazes de obter o resultado desejado. 
Como mostra a coluna da direita da Figura 3.29, isso 
é de fato o que acontece. Assim, vemos que, para rea- 
lizar a convolução, tudo o que fazemos é rotacionar a 
180º uma função e realizar as mesmas operações que na 
correlação. Na verdade, não faz diferença qual das duas 
funções rotacionamos. 


Os conceitos anteriores se estendem facilmente a 
imagens, como mostra a Figura 3.30. Para um filtro de 
dimensões m x n, preenchemos com zeros a imagem com 
um mínimo de m — 1 linhas acima e abaixo e n - 1 colu- 
nas à esquerda e à direita. Neste caso, m e n são iguais a 3, 


* Observe que a rotação de 180º equivale a inverter horizontal- 
mente a função. 
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de forma que preenchemos fcom duas linhas de 0s acima 
e abaixo e duas colunas de Os à esquerda e direita, como 
mostra a Figura 3.30(b). A Figura 3.30(c) mostra a posi- 
ção inicial da máscara para realizar a correlação, e a Fi- 
gura 3.30(d) mostra o resultado da correlação completa. 
A Figura 3.30(e) mostra o resultado correspondente após 
o recorte. Observe mais uma vez que o resultado é ro- 
tacionado a 180º”. Para a convolução, pré-rotacionamos 
a máscara como antes e repetimos a operação de soma 
dos produtos de cada deslocamento como acabamos de 
explicar. As figuras 3.30(f) a (h) mostram o resultado. 
Vemos novamente que a convolução de uma função com 
um impulso copia a função na posição do impulso. Deve 
ficar claro que, se a máscara for simétrica, a correlação e 
a convolução geram o mesmo resultado. 


Se, em vez de conter apenas um 1, a imagem f da 
Figura 3.30 contivesse uma região idêntica a w, o valor 
da função de correlação (após a normalização) teria sido 
máximo quando w estivesse centrado nessa região de f. 
Dessa forma, como veremos no Capítulo 12, a correlação 
também pode ser utilizada para encontrar correspondências 
entre imagens. 


Resumindo a discussão anterior na forma de equa- 
ção, temos que a correlação de um filtro w(x, y) de tamanho 
m xn com uma imagem f(x, y), expressa como w(x, y) X 
fix, y), é dada pela equação mostrada no final da última 
seção, que repetimos aqui por conveniência: 


w(x,9) é f(xy) = X Y whs) (245,94) (244) 


s=—at=—b 


Essa equação é calculada para todos os valores das 
variáveis de deslocamento x e y, de forma que todos 
os elementos de w percorram cada um dos pixels de f, 
onde presumimos que ffoi apropriadamente preenchida. 
Como explicamos anteriormente, a = (m- 1)/2,b=(n-1)/2, 
e consideramos, para praticidade de notação, que men 
são números inteiros ímpares. 


De forma similar, a convolução de w(x, y) e f(x, y), 
expressa por w(x, y) x f(x, y)”, é dada pela expressão:”” 


“ Em imagens 2-D, a rotação a 180º equivale a inverter a máscara 
em relação a um eixo e, depois, em relação ao outro. 


“ Como a convolução é comutativa, temos que w(x, y) X f(x, y) = 
f(x, y) ® w(x, y). Isso não é verdade para a correlação, como pode 
ser visto, por exemplo, invertendo a ordem das funções na Figura 
3.29(a). 

* Muitas vezes, quando o significado é claro, expressamos o resul- 
tado de uma correlação ou convolução por uma função g(x, y), em 
vez de escrever w(x, y) X fix, y) ou w(x, y) X fix, y). Por exemplo, 
veja a equação no final da seção anterior e a Equação (3.5-1). 
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wiy) an= 5 w(s flies, 9-1) B42 


s=—at=—b 

onde o sinal de menos à direita inverte f (isto é, a rotaciona 
a 180º). Inverter e deslocar fem vez de w são processos 
realizados para fins de simplicidade de notação e também 
para seguir a forma convencional. O resultado é o mesmo. 
Como no caso da correlação, essa equação é calculada 
para todos os valores das variáveis de deslocamento x e y, 
de forma que todos os elementos de w percorram cada 
um dos os pixels de f, que presumimos ter sido apropria- 
damente preenchidos. Podemos expandir a Equação 3.4-2 
para uma máscara 3 x 3 e nos convencermos de que 
o resultado de utilizar essa equação é idêntico ao exemplo 
da Figura 3.30. Na prática, costuma-se trabalhar com um al- 
goritmo que implementa a Equação 3.4-1. Se quisermos 
realizar a correlação, incluímos w no algoritmo; para a 
convolução, incluímos w rotacionado em 180º. O oposto 
se aplica caso, em vez disso, um algoritmo que imple- 
menta a Equação 3.4-2 esteja disponível. 


Como mencionamos anteriormente, a convolução é 
fundamental na teoria dos sistemas lineares. Como vere- 


mos no Capítulo 4, a propriedade de que a convolução de 
uma função com um impulso unitário copia a função na 
posição do impulso tem um papel central em uma série 
de importantes derivações. Retomaremos a convolução 
no Capítulo 4 no contexto da transformada de Fourier e 
do teorema da convolução. Diferentemente da Equação 
3.4-2, contudo, estaremos lidando com a convolução de 
funções que são do mesmo tamanho. A forma da equação 
é a mesma, mas os limites do somatório são diferentes. 


Utilizar a correlação ou a convolução para realizar 
a filtragem espacial é uma questão de preferência. Na 
verdade, como tanto a Equação 3.4-1 quanto a Equação 
3.4-2 são capazes de realizar a função uma da outra por 
uma simples rotação do filtro, o importante é que a más- 
cara do filtro utilizada em uma dada tarefa de filtragem 
seja especificada de forma a corresponder com a operação 
pretendida. Todos os resultados da filtragem espacial linear 
deste capítulo se baseiam na Equação 3.4-1. 


Finalmente, é importante dizer que você provavel- 
mente encontrará os termos filtro de convolução, máscara 
de convolução ou kernel de convolução na literatura sobre 
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Figura 3.30 Correlação (linha do meio) e convolução (última linha) de um filtro 2-D com um impulso unitário discreto 2-D. Os zeros são mostra- 


dos em cinza para simplificar a análise visual. 


Ui W2 Us 
W4 Ws We 
W7 Ws Wo 


Figura 3.31 Outra representação de uma máscara 3 x 3. 
processamento de imagens. Como regra, esses termos são 
utilizados para expressar um filtro espacial, e não neces- 
sariamente o filtro será utilizado verdadeiramente para 
uma convolução. De forma similar, a expressão “realizar 
a convolução de uma máscara com uma imagem” cos- 
tuma ser utilizada para expressar o processo de desloca- 
mento e soma dos produtos que acabamos de explicar, 
e não necessariamente diferencia entre a correlação e a 
convolução. Em vez disso, ela é utilizada de forma ge- 
nérica para expressar uma dessas duas operações. Essa 
terminologia imprecisa costuma ser fonte de confusão. 


3.4.3 Representação vetorial da filtragem linear 


Quando o interesse for a resposta característica, R, de 
uma máscara para a correlação ou a convolução, algumas 
vezes pode ser útil expressar a soma dos produtos como:” 

R T WZ, + WZ, E no + W mn? mn 


mn 


(3.4-3) 


k=1 
= e 

onde os valores de w são os coeficientes de um filtro m x n 
e os valores de z são as intensidades correspondentes da 
imagem que estão cobertas pelo filtro. Se estivermos in- 
teressados em utilizar a Equação 3.4-3 para a correlação, 
devemos utilizar a máscara sem alterações. Para utilizar 
a mesma equação para a convolução, basta rotacionar a 
máscara em 180º, como explicamos na seção anterior. 
Está implícito que a Equação 3.4-3 se aplica a um par 
específico de coordenadas (x, y). Você verá na próxima 
seção por que esta notação é útil para explicar as caracte- 
rísticas de um dado filtro linear. 


A título de exemplo, a Figura 3.31 mostra uma más- 
cara genérica 3 x 3 com os coeficientes definidos. Neste 
caso, a Equação 3.4-3 passa a ser: 


R=W,Z, + WZ, ++ wo, 


(3.4-4) 


* Consulte a seção Tutoriais no site do livro para uma breve revisão 
sobre vetores e matrizes. 
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onde w e z são vetores 9-dimensionais formados a partir 
dos coeficientes da máscara e das intensidades de imagem 
cobertas pela máscara, respectivamente. 


3.44 Gerando máscaras de filtragem espacial 


Para gerar um filtro espacial linear m x n, devemos 
especificar os coeficientes da máscara mn. Esses coeficien- 
tes, por sua vez, são selecionados com base no que o filtro 
deve fazer, tendo em mente que tudo o que podemos 
fazer com a filtragem linear é implementar uma soma 
de produtos. Por exemplo, suponha que queiramos subs- 
tituir os pixels de uma imagem pela intensidade média 
de uma vizinhança 3 x 3 centrada nesses pixels. O valor 
médio de qualquer posição (x, y) na imagem é a soma dos 
nove valores de intensidade da vizinhança 3 x 3 centrada 
em (x, y) dividida por 9. Com z, i= 1, 2, ..., 9, indicando 
essas intensidades, a média é: 


Mas isso é o mesmo que a Equação 3.4-4 com valores 
de coeficiente w, = 1/9. Em outras palavras, uma ope- 
ração de filtragem linear com uma máscara 3 x 3 cujos 
coeficientes são 1/9 implementa o cálculo desejado da 
média. Como discutiremos na próxima seção, essa opera- 
ção resulta na suavização de imagens. Analisaremos nas 
seções a seguir uma série de outras máscaras de filtragem 
com base nessa abordagem. 


Em algumas aplicações, temos uma função contínua 
de duas variáveis, e o objetivo é obter uma máscara de fil- 
tragem espacial com base nessa função. Por exemplo, uma 
função gaussiana de duas variáveis tem a forma básica: 


o x+y? 


hi nye Se 


onde o é o desvio padrão e, como sempre, consideramos 
que as coordenadas x e y sejam números inteiros. Para 
gerar, digamos, uma máscara 3 x 3 a partir dessa função, 
fazemos uma amostragem ao redor de seu centro. As- 
sim, w, = h(-1, -1), w, = h(-1, 0), .... w, = h(1, 1). Uma 
máscara m x n é gerada de forma similar. Lembre-se que 
uma função gaussiana bidimensional tem o formato de 
um sino e que o desvio padrão controla o quanto o sino 
é “aberto”. 


Gerar um filtro não linear requer especificar as di- 
mensões de uma vizinhança e a(s) operação(ões) a 
ser(em) executada(s) nos pixels da imagem contidos na 
vizinhança. Por exemplo, lembrando que a operação máx 
é não linear (veja a Seção 2.6.2), um filtro máx 5 x 5 cen- 
trado em um ponto arbitrário (x, y) de uma imagem obtém 
o máximo valor de intensidade dos 25 pixels e atribui 
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esse valor à posição (x, y) na imagem processada. Filtros 
não lineares são bastante poderosos e, em algumas aplica- 
ções, podem realizar funções que estão além das possibi- 
lidades dos filtros lineares, como veremos mais adiante 
neste capítulo e também no Capítulo 5. 


3.5 Filtros espaciais de suavização 


Os filtros de suavização são utilizados para borra- 
mento e redução de ruído. O borramento é aplicado em 
tarefas de pré-processamento, como remoção de peque- 
nos detalhes da imagem antes da extração de objetos 
(grandes) e conexão de pequenas descontinuidades em 
linhas ou curvas. A redução de ruído pode ser obtida pelo 
borramento com um filtro linear e também pela filtragem 
não linear. 


3.5.1 Filtros lineares de suavização 


A saída (resposta) de um filtro espacial linear de 
suavização é simplesmente a média dos pixels contidos 
na vizinhança da máscara de filtragem. Esses filtros por 
vezes são chamados de filtros de média. Como mencionado 
na seção anterior, eles também podem ser chamados de 
filtros passa-baixa. 


A ideia por trás dos filtros de suavização é direta. Ao 
substituir o valor de cada pixel de uma imagem pela mé- 
dia dos níveis de intensidade da vizinhança definida pela 
máscara, o processo resulta em uma imagem com perda 
da nitidez, ou seja, com redução das transições “abrup- 
tas” nas intensidades. Pelo fato de o ruído aleatório nor- 
malmente consistir em transições abruptas nos níveis de 
intensidade, a aplicação mais evidente da suavização é 
a redução de ruído. No entanto, as bordas (que quase 
sempre são características desejáveis de uma imagem) 
também são caracterizadas por transições abruptas de in- 
tensidade, de forma que os filtros de média apresentam 
o efeito colateral indesejável de borrar as bordas. Uma 
outra aplicação desse tipo de processo inclui a suaviza- 
ção de falsos contornos resultantes da utilização de um 
número insuficiente de níveis de intensidade, como dis- 
cutido na Seção 2.4.3. Uma importante utilização dos fil- 
tros de média é a redução de detalhes “irrelevantes” em 
uma imagem. Por “irrelevantes” queremos dizer regiões 
da imagem que são menores que o tamanho da máscara 
utilizada na filtragem. Esta última aplicação é ilustrada 
mais adiante nesta seção. 


A Figura 3.32 mostra dois filtros de suavização 3 x 3. 
A utilização do primeiro filtro gera a média aritmética 
simples dos pixels cobertos pela máscara. Isso pode ser 
visto com mais facilidade substituindo os coeficientes da 
máscara na Equação 3.4-4: 


1 9 
924% 


i= 


R= 


que é a média dos níveis de intensidade dos pixels na vizi- 
nhança 3 x 3 definida pela máscara, como discutimos an- 
teriormente. Observe que, em vez de 1/9, os coeficientes 
do filtro são todos Is. A ideia aqui é que é computacio- 
nalmente mais eficiente ter coeficientes com valor 1. Ao 
final do processo de filtragem, toda a imagem é dividida 
por 9. Uma máscara m x n teria uma constante de nor- 
malização igual a 1/mn. Um filtro espacial de média no 
qual todos os coeficientes são iguais é chamado, algumas 
vezes, de filtro retangular (box filter). 


A segunda máscara da Figura 3.32 é um pouco mais 
interessante. Essa máscara gera a chamada média ponde- 
rada, terminologia utilizada para indicar que os pixels 
são multiplicados por diferentes coeficientes, atribuindo, 
dessa forma, mais importância (peso) a alguns pixels à 
custa de outros. Na máscara mostrada na Figura 3.32(b), 
o pixel no centro da máscara é multiplicado por um valor 
mais alto do que qualquer outro, atribuindo, assim, mais 
importância a esse pixel no cálculo da média. Os outros 
pixels são inversamente ponderados em função de sua 
distância ao centro da máscara. Os termos diagonais estão 
mais distantes do centro do que os vizinhos ortogonais 
(por um fator de V2 ) e, portanto, têm um peso menor do 
que os vizinhos imediatos do pixel central. A estratégia 
básica por trás do processo de atribuir o maior peso ao 
ponto central e, depois, reduzir o valor dos coeficientes 
em função do aumento da distância da origem, é simples- 
mente uma tentativa de reduzir o borramento no processo 
de suavização. Poderíamos ter escolhido outros pesos 
para atingir o mesmo objetivo geral. No entanto, a soma 
de todos os coeficientes da máscara da Figura 3.32(b) é 
iguala 16, o que é uma característica interessante para a 
implementação computacional por ser um número inteiro 
e potência de 2. Na prática, em geral é difícil ver as dife- 
renças entre as imagens suavizadas utilizando uma das 
máscaras mostradas na Figura 3.32, ou arranjos similares, 
porque a área coberta por essas máscaras em qualquer po- 
sição de uma imagem é muito pequena. 

No que se refere à Equação 3.4-1, a implementação 
geral para a filtragem de uma imagem M x N com um 
filtro de média ponderada de tamanho m x n (m e n ím- 
pares) é dada pela expressão: 


a b 


(3.5-1) 


Os parâmetros nessa equação são iguais aos defini- 
dos na Equação 3.4-1. Como antes, considera-se que a 
imagem completamente filtrada seja obtida aplicando 
a Equação 3.5-1 parax=0,1,2,...,M-ley=0,1,2,..., 
N- 1. O denominador da Equação 3.5-1 é simplesmente 
a soma dos coeficientes da máscara; logo, é uma constan- 
te que só precisa ser calculada uma vez. 


= 
Exemplo 3.13 Suavização de imagens com máscaras 
de vários tamanhos. 


Os efeitos da suavização como uma função do tama- 
nho do filtro são ilustrados na Figura 3.33, que apresenta 
uma imagem original e os resultados suavizados correspon- 
dentes obtidos com a utilização de filtros de média quadrados 
de tamanhos m = 3, 5, 9, 15 e 35 pixels, respectivamente. 
As principais características desses resultados são: para m = 3, 
observamos um ligeiro borramento em toda a imagem, mas, 
como esperado, os detalhes que são aproximadamente do 
mesmo tamanho que a máscara são consideravelmente mais 
afetados. Por exemplo, os quadrados pretos 3 x 3 e 5 x 5 na 
parte superior da imagem, a pequena letra “a” e o ruído gra- 
nulado fino mostram um borramento significativo em com- 
paração com o restante da imagem. Observe que o ruído é 
menos acentuado e os contornos irregulares dos caracteres 
foram agradavelmente suavizados. 


O resultado para m = 5 é de certa forma similar, com 
um ligeiro aumento do borramento. Para m = 9, vemos 
consideravelmente mais borramento, e o círculo 20% pre- 
to não é tão distinguível do fundo da imagem quanto nas 
três imagens anteriores, ilustrando o efeito de mesclagem 
que o borramento tem sobre objetos cujas intensidades se 
aproximam das intensidades dos pixels vizinhos. Observe 
a significativa suavização adicional dos retângulos com ru- 
ído. Os resultados para m = 15 e 35 são extremos no que 
diz respeito às dimensões dos objetos da imagem. Esse tipo 
de borramento agressivo geralmente é utilizado para eli- 
minar pequenos objetos de uma imagem. Por exemplo, os 
três quadrados pequenos, dois dos círculos e a maioria das 


a b 

1 1 1 1 2 1 
Lgl j 1 1 2x)! 2 4 2 
9 16 

1 1 1 1 2 1 
Figura 3.32 Duas máscaras 3 x 3 (de média) para suavização. A 


constante de multiplicação diante de cada máscara é igual a 1 divi- 
dido pela soma dos valores de seus coeficientes, 0 que é necessário 
para calcular uma média. 


Transformações de intensidade e filtragem espacial 101 


áreas retangulares com ruído foram mesclados ao fundo da 
imagem na Figura 3.33(f). Observe também nessa figura 
a borda preta acentuada. Esse é um resultado do preen- 
chimento da borda da imagem original com Os (preto) 
e o recorte da área preenchida após a filtragem. Parte 
do preto foi misturada em todas as imagens filtradas, mas o 
efeito só ficou realmente inaceitável nas imagens suavizadas 
com os filtros maiores. 

a 


Como já mencionamos, uma importante aplica- 
ção da média espacial consiste em borrar uma imagem 
para obter uma representação mais geral dos objetos 
de interesse, já que a intensidade dos objetos menores 
se mistura ao fundo, e os objetos maiores se tornam 
“borrões”, que são mais fáceis de serem detectados. O 
tamanho da máscara define o tamanho relativo dos ob- 
jetos que serão mesclados ao fundo. A título de exem- 
plo, vejamos a Figura 3.34(a), que é uma imagem gera- 
da pelo telescópio Hubble em órbita ao redor da Terra. 
A Figura 3.34(b) mostra o resultado da aplicação de um 
filtro de média 15 x 15 a essa imagem. Vemos que vários 
objetos foram mesclados ao fundo ou tiveram a intensi- 
dade consideravelmente reduzida. É comum uma operação 
como essa ser seguida da limiarização para eliminar 
objetos com base em sua intensidade. O resultado da uti- 
lização da função de limiarização da Figura 3.2(b) com 
um valor de limiar igual a 25% da maior intensidade da 
imagem borrada é mostrado na Figura 3.34(c). Compa- 
rando esse resultado à imagem original, vemos que ele é 
uma representação razoável do que consideraríamos os 
maiores e mais claros objetos da imagem. 


3.5.2 Filtros de estatística de ordem (não lineares) 


Os filtros de estatística de ordem são filtros espa- 
ciais não lineares cuja resposta se baseia na ordenação 
(classificação) dos pixels contidos na área da imagem co- 
berta pelo filtro e substituindo o valor do pixel central 
pelo valor determinado pelo resultado da classificação. O 
filtro mais conhecido dessa categoria é o filtro de media- 
na, o qual, como o nome sugere, substitui o valor de um 
pixel pela mediana dos valores de intensidade na vizi- 
nhança desse pixel (o valor original do pixel é incluído no 
cálculo da mediana). Os filtros de mediana são bastante 
populares, porque, para certos tipos de ruído aleatório, 
proporcionam excelentes resultados na redução de ruído, 
com borramento consideravelmente menor do que filtros 
lineares de suavização de tamanho similar. Os filtros de 
mediana são particularmente eficazes na presença de ruí- 
do implusivo, também chamado de ruído sal e pimenta, em 
razão de sua aparência, como pontos brancos e pretos so- 
brepostos em uma imagem. 
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Figura 3.33 (a) Imagem original de 500 x 500 pixels. (b) a (f) Resulta- 
dos da suavização com filtros de média, quadrados, de tamanhos m = 
3,5, 9, 15 e 35, respectivamente. Os quadrados pretos no alto das ima- 
gens têm tamanhos 3, 5, 9, 15, 25, 35, 45 e 55 pixels, respectivamente; 
suas bordas estão distantes 25 pixels umas das outras. O tamanho das 
letras na parte inferior varia de 10 a 24 pontos, em incrementos de 2 
pontos; a letra maior na parte superior tem 60 pontos. As barras verti- 
cais têm 5 pixels de largura e 100 pixels de altura; sua separação é de 
20 pixels. O diâmetro dos círculos é de 25 pixels e suas bordas estão 
distantes 15 pixels; seus níveis de intensidade variam de 0% a 100% 
de preto em incrementos de 20%. O fundo da imagem é 10% preto. Os 
retângulos com ruído têm 50 x 120 pixels. 


+ 


A mediana, é, de um conjunto de valores é tal que 
metade dos valores do conjunto é menor ou igual a €, 
e a outra metade é maior ou igual a é. Para realizar a 
filtragem por mediana em um ponto de uma imagem, 
primeiro ordenamos os valores dos pixels da vizinhança, 
calculamos sua mediana e atribuímos esse valor ao pi- 
xel correspondente na imagem filtrada. Por exemplo, em 
uma vizinhança 3 x 3, a mediana é o quinto maior valor, 
em uma vizinhança 5 x 5, é o 13º valor, e assim por dian- 
te. Quando vários valores de uma vizinhança são iguais, 


todos os valores iguais são agrupados. Por exemplo, su- 
ponha que uma vizinhança 3 x 3 tenha valores (10, 20, 
20, 20, 15, 20, 20, 25, 100). Esses valores são ordenados 
como (10, 15, 20, 20, 20, 20, 20, 25, 100), o que resulta 
em uma mediana igual a 20. Dessa forma, a principal 
função dos filtros de mediana é forçar pontos com níveis 
de intensidade distintos para serem mais semelhantes aos 
seus vizinhos. De fato, agrupamentos isolados de pixels 
que são claros ou escuros em relação aos seus vizinhos, 
e cuja área é menor que m?/2 (metade da área do filtro), 
são eliminados por um filtro de mediana m x m. Neste 
caso, “eliminado” significa forçado a receber a intensi- 
dade mediana dos vizinhos. Grandes agrupamentos são 
consideravelmente menos afetados. 


Apesar de o filtro de mediana definitivamente ser o 
filtro de estatística de ordem mais útil no processamen- 
to de imagens, ele não é o único. A mediana representa 
o 50º percentil de um conjunto de valores ordenados, 
mas devemos lembrar, com base nos fundamentos da 
estatística, que a ordenação tem muitas outras possibili- 
dades.” Por exemplo, utilizar o 100º percentil resulta no 
chamado filtro máx, útil para identificar os pontos mais 
claros de uma imagem. A resposta de um filtro máx 3 x 3 
é dada por R = max {z,|k = 1, 2, ...,9} O filtro de 0º per- 
centil é o filtro mín, utilizado para fazer o oposto. Os filtros 
de mediana, máx, mín e vários outros filtros não lineares 
serão analisados em mais detalhes na Seção 5.3. 


= 
Exemplo 3.14 Utilização da filtragem de mediana para a 
redução de ruído. 


A Figura 3.35(a) mostra uma imagem de raios X de 
uma placa de circuito fortemente corrompida pelo ruído sal 
e pimenta. Para ilustrar a questão da superioridade da fil- 
tragem de mediana sobre a filtragem de média em situações 
como essas, mostraremos, na Figura 3.35(b), o resultado do 
processamento da imagem com ruído pelo filtro de média 
3 x 3 e, na Figura 3.35(c), o resultado da utilização de um 
filtro de mediana 3 x 3. O filtro de média borrou a imagem 
e seu desempenho na redução do ruído foi baixo. A superio- 
ridade da filtragem de mediana sobre a filtragem de média é 
evidente em todos os aspectos. Em geral, a filtragem de me- 
diana é muito mais adequada do que a filtragem de média 
para a remoção do ruído sal e pimenta. 

E 


3.6 Filtros espaciais de aguçamento 


O principal objetivo do aguçamento é salientar tran- 
sições de intensidade para o aumento da nitidez de uma 
imagem. As utilizações do aguçamento de imagens são 
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Figura 3.34 


(a) Inagem de 528 x 485 pixels obtida com o telescópio espacial Hubble. (b) Imagem filtrada com um filtro de média de tamanho 


15 x 15. (c) Resultado da limiarização de (b). (Imagem original: cortesia da Nasa.) 


variadas e incluem aplicações como impressão eletrônica, 
imagens médicas, inspeção industrial e navegação autô- 
noma em sistemas militares. Na última seção, vimos que 
o borramento de imagens poderia ser realizado no domi- 
nio do espaço pela média dos pixels em uma vizinhança. 
Como o cálculo da média é análogo à integração, é lógico 
concluir que o aguçamento pode ser realizado pela dife- 
renciação no domínio do espaço. Este de fato é o caso, e 
a análise desta seção lida com as várias formas de definir 
e implementar operadores para o aguçamento por dife- 
renciação digital. Fundamentalmente, a força da respos- 
ta de um operador derivativo é proporcional ao nível de 
descontinuidade da intensidade da imagem no ponto no 
qual o operador é aplicado. Dessa forma, a diferenciação 
de uma imagem realça as bordas e outras descontinuida- 
des (como o ruído) e atenua as áreas com intensidades de 
variação mais suave. 


Figura 3.35 


3.6.1 Fundamentos 


Nas duas seções seguintes, analisaremos em de- 
talhes os filtros de aguçamento baseados em derivadas 
de primeira e segunda ordem, respectivamente. Antes de 
prosseguir com esta discussão, contudo, vamos parar 
para examinar algumas propriedades fundamentais des- 
sas derivadas no contexto digital. Para simplificar a 
explicação, nos concentraremos inicialmente nas derivadas 
unidimensionais. Em particular, estamos interessados no 
comportamento dessas derivadas nas áreas de intensida- 
de constante, no início e no final de descontinuidades 
(descontinuidades de degrau e rampa) e ao longo de ram- 
pas de intensidade. Como veremos no Capítulo 10, esses 
tipos de descontinuidades podem ser utilizados para mo- 
delar pontos de ruído, linhas e bordas em uma imagem. 
O comportamento das derivadas durante transições para 
essas características de imagem e a partir dessas caracte- 
rísticas também é de interesse. 


(a) Imagem de raios X de uma placa de circuito corrompida pelo ruído sal e pimenta. (b) Redução de ruído com um filtro de média 


3x3. (c) Redução de ruído com um filtro de mediana 3 x 3. (Imagem original: cortesia do Sr. Joseph E. Pascente, Lixi, Inc.) 


“Veja a Seção 10.3.5 sobre os percentis. 
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As derivadas de uma função digital são definidas em 
termos de diferenças. Há várias maneiras de defini-las. No 
entanto, é preciso que qualquer definição utilizada para 
a primeira derivada (1) seja zero em áreas de intensidade 
constante; (2) seja diferente de zero no início de um de- 
grau ou rampa de intensidade; e (3) seja diferente de zero 
ao longo das rampas. De forma similar, qualquer defini- 
ção de uma segunda derivada (1) deve ser zero em áreas 
constantes; (2) deve ser diferente de zero no início e no fi- 
nal de um degrau ou rampa de intensidade; e (3) deve ser 
zero ao longo de rampas de inclinação constante. Como 
estamos lidando com quantidades digitais cujos valores 
são finitos, a máxima variação possível de intensidade 
também é finita e a distância mais curta na qual essa mu- 
dança pode ocorrer é a distância entre pixels adjacentes. 


Uma definição básica da derivada de primeira or- 
dem de uma função unidimensional f(x) é a diferença: 


of 
is f(x+ 1) f (x) (3.6-1) 
Utilizamos uma derivada parcial para manter a mes- 
ma notação quando considerarmos uma imagem como 
uma função de duas variáveis, f(x, y), ocasião na qual es- 
taremos lidando com derivadas parciais ao longo dos dois 
eixos espaciais. A utilização de uma derivada parcial na 
presente discussão não afeta de forma alguma a natureza 
do nosso objetivo. Certamente, Of / Ox = df / dx quando 
houver apenas uma variável na função; o mesmo se apli- 
ca à segunda derivada. 


Definimos a derivada de segunda ordem de f(x) 
como a diferença: 


DL f(x+1)+ f(x-1)-2f(x) 


Dx (3.6-2) 


É fácil verificar que essas duas definições satisfazem 
as condições mencionadas. Para ilustrar isso, e para anali- 
sar as semelhanças e diferenças entre as derivadas de 
primeira e segunda ordem de uma função digital, vejamos 
o exemplo da Figura 3.36. 


A Figura 3.36(b) (centro da figura) mostra uma se- 
ção de uma linha de varredura (perfil de intensidade). Os 
valores dentro dos pequenos quadrados são de intensida- 
de na linha de varredura, que são plotados acima deles 
como pontos pretos na Figura 3.36(a). A linha tracejada 
que liga os pontos foi incluída para facilitar a visualização. 


Retomaremos a Equação 3.6-1 na Seção 10.2.1 e mostraremos 
como ela resulta de uma expansão da série de Taylor. Por en- 
quanto, essa será a definição aceita. 


Como mostra a figura, a linha de varredura contém uma 
rampa de intensidade, três seções de intensidade cons- 
tante e um degrau de intensidade. Os círculos indicam 
o início ou o fim de transições de intensidade. As de- 
rivadas de primeira e segunda ordem calculadas com 
a utilização das duas definições anteriores são incluídas 
abaixo da linha de varredura na Figura 3.36(b), e são plo- 
tadas na Figura 3.36(c). Ao calcular a primeira derivada 
na posição x, subtraímos o valor da função nessa posição 
do valor do próximo ponto. Dessa maneira, trata-se de 
uma operação de “olhar adiante”. De maneira similar, para 
calcular a segunda derivada em x, utilizamos os pontos 
anterior e seguinte no cálculo. Para evitar uma situação 
na qual o ponto anterior ou seguinte estejam fora do alcance 
da linha de varredura, mostraremos os cálculos de deri- 
vadas na Figura 3.36 a partir do segundo até o penúltimo 
ponto na sequência. 


Vamos considerar as propriedades da primeira e da 
segunda derivada à medida que percorremos o perfil 
da esquerda para a direita. Em primeiro lugar, encontramos 
uma área de intensidade constante e, como mostram as 
Figuras 3.36(b) e (c), as duas derivadas são zero, de modo 
que a condição (1) é satisfeita para ambas. Em seguida, 
encontramos uma rampa de intensidade seguida de um 
degrau e notamos que a derivada de primeira ordem é di- 
ferente de zero no início da rampa e no início do degrau; 
de forma similar, a segunda derivada é diferente de zero 
no início e no final, tanto da rampa quanto do degrau; 
assim, a propriedade (2) é satisfeita para as duas deriva- 
das. Por fim, verificamos que a propriedade (3) também 
é satisfeita para as duas derivadas porque a primeira deri- 
vada é diferente de zero, e a segunda é zero ao longo da 
rampa. Observe que o sinal da segunda derivada muda no 
início e no final de um degrau ou de uma rampa. Com 
efeito, vemos na Figura 3.36(c) que, em uma transição de 
degrau, uma linha ligando esses dois valores cruza o eixo 
horizontal na metade do caminho entre os dois extremos. 
Essa propriedade de cruzamento por zero é bastante útil 
para localizar bordas, como veremos no Capítulo 10. 


As bordas nas imagens digitais, muitas vezes, são 
transições parecidas com rampas em termos de intensida- 
de, caso no qual a primeira derivada da imagem resultaria 
em bordas espessas pelo fato de a derivada ser diferente 
de zero ao longo de uma rampa. Por outro lado, a segun- 
da derivada produziria uma dupla borda, com espessura de 
um pixel, separada por zeros. Com isso, concluímos que 
a segunda derivada realça muito mais os detalhes finos 
do que a primeira derivada, uma propriedade que é muito 
adequada para o aguçamento de imagens. Além disso, 
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Figura 3.36 


Ilustração do primeiro e do segundo derivativo de uma função digital unidimensional representando uma seção de um perfil de 


intensidade horizontal de uma imagem. Em (a) e (c), os pontos de dados são ligados por linhas tracejadas para facilitar a visualização. 


como veremos mais adiante nesta seção, os segundas de- 
rivadas são muito mais fáceis de implementar do que as 
primeiras derivadas, de forma que nos concentraremos 
inicialmente nas segundas derivadas. 


3.6.2 Utilizando a segunda derivada para o 
aguçamento de imagens — o laplaciano 


Nesta seção, analisaremos a implementação de deri- 
vadas bidimensionais de segunda ordem e sua utilização 
para o aguçamento de imagens. Retomaremos essa deri- 
vada no Capítulo 10, onde a utilizaremos extensivamente 
para a segmentação de imagens. A metodologia consiste 
basicamente em definir uma fórmula discreta da derivada 
de segunda ordem e construir uma máscara de filtragem 
com base nessa formulação. Estamos interessados em 
filtros isotrópicos, cuja resposta independe da direção das 
descontinuidades da imagem à qual o filtro é aplicado. 
Em outras palavras, os filtros isotrópicos são invariantes em 
rotação, no sentido de que rotacionar a imagem e depois 
aplicar o filtro fornece o mesmo resultado que aplicar o 
filtro à imagem primeiro e depois rotacionar o resultado. 


Pode ser demonstrado (Rosenfeld e Kak, 1982) que 
o operador derivativo isotrópico mais simples é o lapla- 
ciano, que, para uma função (imagem) f(x, y) de duas 
variáveis, é definido como: 


of o? 

V'f= — F (3.6-3) 

Como as derivadas de qualquer ordem são opera- 

ções lineares, o laplaciano é um operador linear. Para 

expressar essa equação na forma discreta, utilizamos a 

definição da Equação 3.6-2, tendo em mente que pre- 

cisamos considerar uma segunda variável. Na direção 
x, temos 


of 

ar SNL y) f(x- y)=2f(x.y) (8.6-4) 
e, de forma similar, na direção y, temos: 

ory 

eo f(x, yt lt f(x, y-l)-2f (xy) (365) 


Dessa forma, segue-se, a partir das três equações 
anteriores, que o laplaciano discreto de duas variáveis é: 


Vr=f(x+19)+f(x—1 9)+ f(x, y+1)+ 


f(x, y-1)-4f (xy) (3.6-6) 

Essa equação pode ser implementada utilizando a 
máscara de filtragem da Figura 3.37(a), a qual gera um 
resultado isotrópico para rotações em incrementos de 90°. 
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a b 

0 1 0 1 1 1 

1 —4 1 1 —8 1 

0 Al 0 1 1 1 
c d 

0 =I 0 1 1 1 

=l 4 —1 =1 8 =l 

0 = 0 1 1 1 
Figura 3.37 (a) Máscara de filtragem utilizada para implementar a 
Equação 3.6-6. (b) Máscara utilizada para implementar uma extensão 


dessa equação que inclui os termos diagonais. (c) e (d) Duas outras im- 
plementações do laplaciano frequentemente encontradas na prática. 


O funcionamento da implementação é similar ao da 
Seção 3.5.1 para filtros lineares de suavização. Nós simples- 
mente estamos utilizando coeficientes diferentes aqui. 


As direções diagonais podem ser incorporadas à de- 
finição do laplaciano digital com o acréscimo de mais dois 
termos à Equação 3.6-6, um para cada direção diagonal. 
A forma de cada novo termo é a mesma que a Equação 
3.6-4 ou a Equação 3.6-5, mas as coordenadas estão ao 
longo das diagonais. Como cada termo de diagonal tam- 
bém contém um termo -2f(x, y), o total subtraído dos termos 
da diferença agora seria -8f(x, y). A Figura 3.37(b) mostra 
a máscara utilizada para implementar essa nova definição. 
Essa máscara gera resultados isotrópicos em incrementos 
de 45°. Você provavelmente verá na prática as máscaras 
laplacianas mostradas nas figuras 3.37(c) e (d). Elas são 
obtidas a partir das definições das segundas derivadas 
que são os negativos das derivadas utilizadas nas equa- 
ções 3.6-4 e 3.6-5. Dessa forma, eles geram resultados 
equivalentes, mas a diferença do sinal deve ser levada em 
consideração ao combinar (pela soma ou subtração) uma 
imagem filtrada pelo laplaciano com outra imagem. 


Como o laplaciano é um operador diferencial, sua 
utilização realça as descontinuidades de intensidade em 
uma imagem e atenua as regiões com níveis de inten- 
sidade de variação mais suave. Isso tenderá a produzir 
imagens nas quais as linhas de borda e outras desconti- 
nuidades aparecerão em tons de cinza sobrepostos a um 


fundo escuro e uniforme. As características do fundo po- 
dem ser “recuperadas” enquanto se preserva o efeito de 
aguçamento do laplaciano simplesmente adicionando a 
imagem laplaciana à original. Como observamos no pa- 
rágrafo anterior, é importante levar em consideração qual 
definição de laplaciano está sendo utilizada. Se a defini- 
ção em uso tiver um coeficiente de centro negativo, en- 
tão subtraímos, em vez de adicionar, a imagem laplaciana 
para obter o resultado de aguçamento. Assim, a forma 
básica na qual utilizamos o laplaciano para o aguçamento 
de imagens é 


g(x, y)= f(x y)+ |V f(xy] (267) 


onde f(x, y) e g(x, y) são as imagens de entrada e aguçada, 
respectivamente. A constante é c = -1 se os filtros lapla- 
cianos na Figura 3.37(a) ou (b) forem utilizados e c= 1 se 
qualquer um dos outros filtros for utilizado. 


= 
Exemplo 3.15 Agugamento de imagens utilizando o 
laplaciano. 


A Figura 3.38(a) mostra uma imagem ligeiramente 
borrada do polo norte da Lua. A Figura 3.38(b) mostra o re- 
sultado da filtragem dessa imagem com a máscara laplaciana 
da Figura 3.37(a). Várias regiões dessa imagem são pretas 
porque o laplaciano contém valores tanto positivos quanto 
negativos, e todos os valores negativos são ajustados para O 
pelo sistema de exibição. 


Uma forma típica de ajustar a escala de uma imagem 
laplaciana é somar seu valor mínimo a ela para levar o novo 
mínimo a zero e ajustar o resultado para o intervalo total 
de intensidade [0, L - 1], como explicamos nas equações 
(2.6-10) e (2.6-11). A imagem da Figura 3.38(c) foi ajusta- 
da dessa forma. Observe que as características dominantes 
da imagem são as bordas e as descontinuidades acentuadas 
de intensidade. O fundo, antes preto, agora é cinza em ra- 
zão do ajuste. A aparência acinzentada é típica de imagens 
laplacianas que foram adequadamente ajustadas. A Figura 
3.38(d) mostra o resultado obtido utilizando a Equação 3.6-7 
com c = —1. Os detalhes dessa imagem são evidentemente 
mais claros e nítidos do que na imagem original. Adicionar a 
imagem original à laplaciana restaurou as variações globais 
de intensidade da imagem, com o laplaciano aumentando 
o contraste nos pontos de descontinuidade de intensidade. 
O resultado final é uma imagem na qual pequenos detalhes 
foram realçados e a tonalidade do fundo foi razoavelmente 
preservada. Por fim, a Figura 3.38(e) mostra o resultado 
da repetição do procedimento anterior com o filtro na 
Figura 3.37(b). Aqui, notamos uma melhoria significativa em 
termos de aguçamento em relação à Figura 3.38(d). Isso 
não é inesperado porque utilizar o filtro da Figura 3.37(b) 
proporciona uma diferenciação adicional (aguçamento) nas 


Figura 3.38 (a) Imagem borrada do polo norte da Lua. (b) Laplaciano 
sem ajuste. (c) Laplaciano com ajuste. (d) Imagem aguçada utilizando 
a máscara da Figura 3.37(a). (e) Resultado da utilização da máscara da 
Figura 3.37(b). (Imagem original: cortesia da Nasa.) 


direções diagonais. Resultados como os das figuras 3.38(d) e 
(e) têm feito do laplaciano uma das ferramentas preferidas 
para o aguçamento de imagens digitais. 

E 


3.6.3 Mascara de nitidez e filtragem high-boost 


Um processo que tem sido utilizado por muitos anos 
pela indústria gráfica e de publicações para aumentar a 
nitidez de imagens (aguçamento) consiste em subtrair 
uma versão não nítida (suavizada) de uma imagem da 
imagem original. Esse processo, chamado de máscara de 
nitidez (unsharp masking), consiste nos seguintes passos: 


1. Borrar a imagem original. 


2. Subtrair a imagem borrada da original (a diferença 
resultante é chamada de máscara.) 


3. Adicionar a máscara à imagem original. 
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Com f(x,y) denotando a imagem borrada, a más- 
cara de nitidez é expressa na forma de equação como 
segue. Em primeiro lugar, obtemos a máscara: 


Insana (XY) = F(x y)- F(x y) (8.6-8) 


Depois, adicionamos uma porção ponderada da 
máscara de volta à imagem original: 


g(x, y)= F(x, Y)EK* Isa (x,y) (3.6-9) 


onde incluímos um peso, k(k > 0), para generalização. 
Quando k = 1, temos a máscara de nitidez, como definido 
anteriormente. Quando k > 1, o processo é chamado de 
filtragem high-boost (ou filtragem “alto-reforço”). Escolher 
k< 1 atenua a contribuição da máscara de nitidez. 


A Figura 3.39 explica como a máscara de nitidez 
funciona. O perfil de intensidade da Figura 3.39(a) pode 
ser interpretado como uma linha de varredura horizontal 
que atravessa uma borda vertical que faz a transição de 
uma região escura a uma clara em uma imagem. A Figura 
3.39(b) mostra o resultado da suavização, sobreposta ao 
sinal original (tracejado). A Figura 3.39(c) é a máscara de 
nitidez, obtida subtraindo o sinal borrado do original. Ao 
comparar esse resultado com a seção da Figura 3.36(c) 
que corresponde à rampa da Figura 3.36(a), observamos 
que a máscara de nitidez da Figura 3.39(c) é muito simi- 
lar à que obteríamos utilizando uma derivada de segunda 
ordem. A Figura 3.39(d) é o resultado final realçado pelo 


an 
s cá 
Sinal borrado 
“<7 


Mascara de nitidez 


ao 


Sinal realçado pelo 
aguçamento 


Figura 3.39 Ilustração unidimensional do funcionamento da más- 
cara de nitidez. (a) Sinal original. (b) Sinal borrado com o original tra- 
cejado para referência. (c) Máscara de nitidez. (d) Sinal realçado pelo 
aguçamento obtido pelo acréscimo de (c) a (a). 
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aguçamento, que foi obtido somando-se a máscara ao si- 
nal original. Os pontos nos quais ocorrem uma mudança 
de inclinação da intensidade no sinal agora são enfati- 
zados (aguçados). Observe que valores negativos foram 
adicionados ao sinal original. Assim, é possível que o re- 
sultado final tenha intensidades negativas se a imagem 
original tiver valores zero ou se o valor escolhido de k for 
muito alto, o suficiente para que os picos da máscara se- 
jam enfatizados a um nivel mais alto que o valor mínimo 
da imagem original. Os valores negativos podem gerar 
uma auréola (halo) escura ao redor das bordas, o que, 
se k for suficientemente alto, pode produzir resultados 
indesejáveis. 
a 
Exemplo 3.16 Agugamento de imagens utilizando a 
mascara de nitidez. 


A Figura 3.40(a) mostra uma imagem ligeiramente 
borrada de um texto branco sobre um fundo cinza-escuro. 
A Figura 3.40(b) foi obtida utilizando um filtro de suavi- 
zação do tipo gaussiano (veja a Seção 3.4.4) de dimensões 
5 x 5 como = 3. A Figura 3.40(c) é a máscara de nitidez, 
obtida com a Equação 3.6-8. A Figura 3.40(d) foi obtida 
utilizando a máscara de nitidez (Equação 3.6-9 com k = 
1). Essa imagem apresenta uma ligeira melhora em rela- 
ção à original, mas é possível melhorar ainda mais. A Fi- 
gura 3.40(e) mostra o resultado da utilização da Equação 
(3.6-9) com k = 4,5, o maior valor possível que poderíamos 
utilizar para manter todos os valores no resultado final po- 
sitivos. A melhora dessa imagem em relação à original é 


significativa. 
a 
DIP-XE 
b 


DIP-XE 


DIPXE 


É DIP-XE 
DIP-XE 


Figura 3.40 (a) Imagem original. (b) Resultado do borramento com 
um filtro gaussiano. (c) Máscara de nitidez. (d) Resultado da utilização 
de uma máscara de nitidez. (e) Resultado da filtragem high-boost. 


3.6.4 Utilização de derivadas de primeira ordem 
para o aguçamento (não linear) de imagens — 
o gradiente 
As derivadas de primeira ordem em processamento de 
imagens são implementadas utilizando a magnitude do gra- 
diente. Para uma função f(x, y), o gradiente de fnas coorde- 
nadas (x, y) é definido como o vetor coluna bidimensional: 


of 

Ix a 

Vf = grad(f) = é = or 
Oy (3.6-10) 


Esse vetor tem a importante propriedade geométri- 
ca de apontar na direção da maior taxa de variação de f 
na posição(x, y). 

O módulo ou magnitude (tamanho) do vetor Vf é ex- 
presso como M(x, y), sendo que: 


M(x,y)=mag(Vf)=/9+ 9 


é o valor em (x, y) da taxa de variação na direção do vetor 
gradiente. Observe que M(x, y) é uma imagem do mesmo 
tamanho que a original, criada quando x e y podem variar 
ao longo de todas as posições de pixels em f. É comum 
referir-se a essa imagem como a imagem gradiente (ou ape- 
nas gradiente quando o significado é claro). 


(3.6-11) 


Como os componentes do vetor gradiente são deri- 
vadas, eles são operadores lineares. No entanto, a magni- 
tude desse vetor não é linear, em virtude das operações 
de potência e raiz quadrada. Por outro lado, as derivadas 
parciais da Equação 3.6-10 não são invariantes em rota- 
ção (isotrópicas), mas a magnitude do vetor gradiente é. 
Em algumas implementações, é mais adequado compu- 
tacionalmente aproximar as operações de potência e raiz 
quadrada para valores absolutos: 


M(x,y) ~ 


I| t EA (3.6-12) 


Essa expressão ainda preserva as mudanças relati- 
vas na intensidade, mas a propriedade isotrópica é, em 
geral, perdida. No entanto, como no caso do laplaciano, 
as propriedades isotrópicas do gradiente discreto definido 
no próximo parágrafo são preservadas somente para um 
número limitado de incrementos de rotação que depen- 
dem das máscaras de filtragem aplicadas para aproximar 
as derivadas. As máscaras mais populares utilizadas como 
uma aproximação do gradiente são isotrópicas em múlti- 


* Discutiremos o gradiente com mais detalhes na Seção 10.2.5. 
Aqui, estamos interessados apenas na utilização da magnitude do 
gradiente para o aguçamento de imagens. 


plos de 90º. Esses resultados independem de utilizarmos 
a Equação 3.6-11 ou a Equação 3.6-12, de forma que 
nada significativo é perdido utilizando a última equação 
se optarmos por isso. 


Como no caso do laplaciano, agora definiremos apro- 
ximações discretas para as equações anteriores e, a partir 
daí, formularemos as máscaras de filtragem apropriadas. 
Para simplificar a discussão que se segue, utilizaremos a 
notação da Figura 3.41(a) para indicar as intensidades 
dos pontos da imagem em uma região 3 x 3. Por exem- 
plo, o ponto central, z,, expressa f(x, y) em uma posição 
arbitrária, (x, y); z, expressa f(x- l, y- 1) e assim por 
diante, utilizando a notação apresentada na Figura 3.28. 
Como mostrado na Seção 3.6.1, as aproximações mais 
simples de uma derivada de primeira ordem que satis- 
faz as condições definidas nessa seção são g, = (Z, — Z,) € 
9, = (Z,—Z,). Duas outras definições propostas por Roberts 
(1965) no início do desenvolvimento do processamento 
digital de imagens utilizam diferenças diagonais: 


(3.6-13) 


Se utilizarmos as equações 3.6-11 e 3.6-13, calcula- 
remos a imagem gradiente como: 


&=(Z-2) e &= az) 


M(x,y)= (z, =al (as J] (3.6-14) 


Se utilizarmos as equações (3.6-12) e (3.6-13), então: 


(3.6-15) 


onde se entende que x e y variam ao longo da imagem, 
como já descrito anteriormente. Os termos das derivadas 
parciais necessários na Equação 3.6-13 podem ser imple- 
mentados utilizando as duas máscaras lineares das figuras 
3.41(b) e (c). Essas máscaras são chamadas de operadores 
gradientes diagonais de Roberts. 


M(x,y)=z, - 2,|+|z_ - Z| 


As mascaras de tamanhos pares sao mais dificeis de 
implementar por nao terem um centro de simetria. As 
menores mascaras nas quais estamos interessados sao de 
dimensões 3 x 3. As aproximações para g, e g, utilizando 
uma vizinhança 3 x 3 centrada em z, são: 


o 
J. f =z | 2Z, | Zo) (z } 2Z, } z) (3.6-16) 
e 
Jy = (z | Ze H s) ( Í f 22, f z) (3.6-1 ) 


Essas equações podem ser implementadas utilizan- 
do as máscaras das figuras 3.41 (d) e (e). A diferença entre 
a terceira e a primeira linha da região da imagem 3 x 3 
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a 
4 22 £3 
Z4 Z5 Z6 
27 Zg Z9 
b c 
=1 0 0 =. 
0 1 1 0 
d e 
1 2 1 —1 0 1 
0 0 0 =2, 0 2 
1 2 1 =1 0 1 


Figura 3.41 (a) Região 3 x 3 de uma imagem (z são valores de in- 
tensidade). (b) a (c) Operadores gradientes diagonais de Roberts. (d) a 
(e) Operadores de Sobel. Somando todos os coeficientes da máscara o 
resultado é zero, como se espera de um operador derivativo. 


implementada pela máscara da Figura 3.41(d) aproxi- 
ma a derivada parcial na direção x, e a diferença entre a 
terceira e a primeira coluna na outra máscara aproxima 
a derivada na direção y. Depois de calcular as derivadas 
parciais com essas máscaras, obtemos a magnitude do 
gradiente como antes. Por exemplo, substituir g, e g, na 
Equação 3.6-12 resulta em 


M(x,y) x (z, +22, + 2,)-(z +22, + z| 


i (z H2z,4 Zo) (z, F 22,4 z,) | 
(3.6-18) 


As máscaras das figuras 3.41(d) e (e) são chamadas 
de operadores de Sobel. O objetivo da utilização do valor 2 
no coeficiente central é atingir alguma suavização atri- 
buindo mais importância ao ponto central (discutiremos 
esse conceito em mais detalhes no Capítulo 10). Observe 
que a soma dos coeficientes de todas as máscaras mos- 
tradas na Figura 3.41 resulta em 0, indicando que eles 
geram uma resposta O em áreas de intensidade constante, 
como esperado para um operador derivativo. 
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Como mencionamos anteriormente, os cálculos de 
J, € J, São operações lineares pois envolvem derivadas e, 
dessa forma, podem ser implementadas como uma soma 
de produtos utilizando as máscaras espaciais da Figura 
3.41. O aspecto não linear do aguçamento com o gra- 
diente é o cálculo de M(x, y) envolvendo operações de 
potência e de raiz quadrada, ou a utilização de valores 
absolutos, todas operações não lineares. Essas operações 
são realizadas depois do processo linear que calcula g, € g, 


E 
Exemplo 3.17 Utilização de gradiente para realce de 
borda. 


O gradiente é frequentemente utilizado em processos 
de inspeção industrial, para ajudar as pessoas na detec- 
ção de defeitos ou, o mais comum, como uma etapa de pré- 
-processamento na inspeção automatizada. Teremos mais a 
dizer a respeito nos capítulos 10 e 11. No entanto, será útil 
neste ponto analisaremos um exemplo simples para mos- 
trar como o gradiente pode ser utilizado para realçar defeitos 
e eliminar características de fundo com transição suave. 
Neste exemplo, o realce é utilizado como uma etapa de pré- 
-processamento para a inspeção automatizada, e não para a 
análise humana. 


A Figura 3.42(a) mostra uma imagem ótica de uma 
lente de contato, iluminada por um arranjo de luz elabo- 
rado para salientar imperfeições, como os dois defeitos de 
borda no contorno da lente vistos nas posições de 4 e 5 ho- 
ras. A Figura 3.42(b) mostra o gradiente obtido utilizando a 
Equação 3.6-12 com as duas máscaras de Sobel das figuras 
3.41 (d) e (e). Os defeitos da borda também são bastante vi- 
síveis nessa imagem, mas com a vantagem adicional de os 
tons de cinza constantes ou com transição suave terem sido 
eliminados, simplificando consideravelmente os cálculos ne- 
cessários para a inspeção automatizada. O gradiente também 
pode ser utilizado para enfatizar pequenos espículos que 
podem não ser imediatamente visíveis em uma imagem na 
escala de cinza (esses pontos podem representar elementos 
estranhos, bolsas de ar em uma solução líquida ou minúscu- 
las imperfeições da lente). A capacidade de realçar pequenas 


o E b 
E a 
Figura 3.42 (a) Imagem ótica de uma lente de contato (observe os 


defeitos de contorno nas posições de 4 e 5 horas). (b) Gradiente de So- 
bel. (Imagem original: cortesia de Pete Sites, Perceptics Corporation.) 


descontinuidades em uma área cinza uniforme representa 
outra importante característica do gradiente. 
E 


3.7 Combinando métodos de realce 
espacial 


Com algumas poucas exceções, como a combina- 
ção de suavização com limiarização (Figura 3.34), nos 
concentramos até agora em métodos individuais. Fre- 
quentemente, uma dada tarefa demandará a aplicação 
de várias técnicas complementares para atingir um re- 
sultado aceitável. Nesta seção, ilustraremos um exemplo 
de como a combinação de várias metodologias desen- 
volvidas até agora neste capítulo pode realizar uma difícil 
tarefa de realce de imagem. 


A imagem da Figura 3.43(a) mostra uma varredura 
nuclear óssea de corpo inteiro, utilizada para detectar 
doenças como infecções ósseas e tumores. Nosso objetivo é 
realçar essa imagem aumentando sua nitidez (aguçamen- 
to) e salientando os detalhes do esqueleto. A faixa dinâmica 
estreita dos níveis de intensidade e o grande conteúdo de 
ruído fazem com que essa imagem seja difícil de ser real- 
çada. A estratégia que seguiremos consiste em utilizar o 
laplaciano para salientar os detalhes finos e o gradiente 
para realçar as bordas proeminentes. Por razões que expli- 
caremos em breve, uma versão suavizada da imagem do 
gradiente será aplicada para mascarar a imagem laplacia- 
na (veja a Figura 2.30 em relação ao mascaramento). Por 
fim, tentaremos ampliar a faixa dinâmica dos níveis de in- 
tensidade utilizando uma transformação de intensidade. 


A Figura 3.43(b) mostra o laplaciano da imagem 
original obtido com a utilização do filtro da Figura 
3.37(d). Essa imagem foi ajustada (somente para a exi- 
bição) utilizando a mesma técnica que na Figura 3.38(c). 
Podemos obter uma imagem realçada, em um primeiro 
momento, simplesmente adicionando as figuras 3.43(a) e 
(b), de acordo com a Equação 3.6-7. Só de olhar o nível 
de ruído da Figura 3.43(b), esperaríamos uma imagem 
realçada com bastante ruído adicionando as figuras 
3.43(a) e (b), um fato confirmado pelo resultado na Figu- 
ra 3.43(c). Uma ideia que imediatamente nos ocorre para 
reduzir o ruído é utilizar um filtro de mediana. No entan- 
to, a filtragem de mediana é um processo não linear que 
pode eliminar caraterísticas importantes da imagem, o 
que é inaceitável no processamento de imagens médicas. 


Uma abordagem alternativa baseia-se em utilizar 
uma máscara formada a partir de uma versão suavizada 
do gradiente da imagem original. A razão por trás dessa 
escolha é direta e está calcada nas propriedades das deri- 
vadas de primeira e segunda ordem explicadas na Seção 


Figura 3.43 


3.6.1. O laplaciano, por ser um operador de derivada de 
segunda ordem, tem a grande vantagem de ser mais efi- 
caz para realçar detalhes finos. Contudo, isso faz com que 
produza resultados com mais ruído do que o gradiente. O 
ruído é mais indesejado em áreas suaves, onde tende a ser 
mais visível. O gradiente tem uma resposta média mais 
poderosa em áreas de transições significativas de intensi- 
dade (rampas e degraus) em comparação ao laplaciano. A 
resposta do gradiente ao ruído e detalhes finos é mais bai- 
xa do que a do laplaciano e pode ser reduzida ainda mais 
pela suavização do gradiente com um filtro de média. A 
ideia, então, é suavizar o gradiente e multiplicá-lo pela 
imagem laplaciana. Nesse contexto, podemos considerar 
o gradiente suavizado como uma imagem de máscara. O 
produto preservará os detalhes nas áreas de transição acen- 
tuada enquanto reduzirá o ruído nas áreas relativamente 
uniformes. Esse processo pode ser interpretado de forma 
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(a) Imagem de varredura óssea de corpo inteiro. (b) Laplaciano de (a). (c) Imagem após o agucamento, obtida adicionando (a) e (b). 
(d) Gradiente de Sobel de (a). (e) Imagem de Sobel suavizada com um filtro de média 5 x 5. (f) Imagem de máscara formada pelo produto de (c) e 
(e). (g) Imagem realçada, obtida pela soma de (a) e (f). (h) Resultado final obtido pela aplicação da transformação de potência em (g). Compare (g) 
e (h) com (a). (Imagem original: cortesia da G.E. Medical Systems.) 


generalizada como a combinação dos melhores recursos 
do laplaciano e do gradiente. O resultado é adicionado à 
imagem original para obter uma imagem final realçada. 


A Figura 3.43(d) mostra o gradiente de Sobel da 
imagem original, calculado com a Equação 3.6-12. Os 
componentes g, e g, foram obtidos utilizando as másca- 
ras das figuras 3.41(d) e (e), respectivamente. Como es- 
perávamos, as bordas são muito mais acentuadas nessa 
imagem do que na imagem laplaciana. A imagem suavi- 
zada do gradiente na Figura 3.43(e) foi obtida utilizando 
um filtro de média 5 x 5. As duas imagens gradiente 
foram ajustadas para exibição da mesma forma como a 
imagem laplaciana. Pelo fato de que o menor valor possí- 
vel em uma imagem gradiente é 0, o fundo nas imagens 
ajustadas do gradiente é preto, em vez de cinza, como 
no laplaciano ajustado. O fato de as figuras 3.43(d) e (e) 
serem muito mais claras do que a Figura 3.43(b) comprova, 
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mais uma vez, que o gradiente de uma imagem com um 
conteúdo de borda significativo tem valores mais altos 
em geral do que uma imagem laplaciana. 


O produto da imagem laplaciana com a imagem 
gradiente suavizada é mostrado na Figura 3.43(f). Obser- 
ve a dominância das bordas mais acentuadas e a relativa falta 
de ruído visível, o que representa o principal objetivo do 
mascaramento do laplaciano com uma imagem gradien- 
te suavizada. Adicionar a imagem resultante à original 
levou à imagem realçada mostrada na Figura 3.43(g). O 
aumento significativo na nitidez dos detalhes nessa ima- 
gem em relação à original fica claro na maior parte da 
imagem, incluindo costelas, medula espinhal, pelve e 
crânio. Esse tipo de realce não teria sido possível utilizan- 
do exclusivamente o laplaciano ou o gradiente. 


O procedimento de aguçamento que acabamos de 
discutir não afeta, de forma significativa, a faixa dinâmica 
dos níveis de intensidade de uma imagem. Assim, o último 
passo de nossa tarefa de realce é alargar a faixa dinâmi- 
ca da imagem realçada. Como discutimos com relativo 
detalhamento nas seções 3.2 e 3.3, existem várias fun- 
ções de transformação de intensidade capazes de atingir 
esse objetivo. Sabemos, com base nos resultados da Seção 
3.3.2, que a equalização de histogramas provavelmente 
não funcionará bem com imagens com distribuições de 
intensidade na faixa mais escura da escala, como as nos- 
sas imagens neste caso. A especificação de histogramas 
poderia ser uma solução, mas a característica das imagens 
com as quais estamos lidando, ser mais escura, adequa-se 
muito melhor a uma transformação de potência. Como 
desejamos distribuir os níveis de intensidade ao longo de 
toda a escala, o valor de Ņ na Equação 3.2-3 deve ser me- 
nor do que 1. Após algumas tentativas com essa equação, 
chegamos ao resultado da Figura 3.43(h), obtido com 
y=0,5 e c= 1. Comparando essa imagem com a Figura 
3.43(g), vemos que detalhes significativos passam a ser 
visíveis na Figura 3.43(h). As áreas na região dos pulsos, 
mãos, tornozelos e pés são bons exemplos disso. A estru- 
tura óssea também está muito mais acentuada, incluindo 
os ossos dos braços e pernas. Observe também a suave 
definição do contorno do corpo e do tecido corporal. 
Realçar detalhes dessa natureza por meio da expansão 
da faixa dinâmica dos níveis de intensidade também 
realçou o ruído, mas a Figura 3.43(h) representa uma me- 
lhora visual significativa em relação à imagem original. 


A abordagem que acabamos de discutir é represen- 
tativa dos tipos de processos que podem ser combinados 
para atingir resultados que seriam impossíveis com uma 
técnica isolada. A forma na qual os resultados são utili- 


zados depende da aplicação. O usuário final do tipo de 
imagem mostrada neste exemplo provavelmente seria 
um radiologista. Por uma série de razões que estão além 
do escopo da nossa discussão, os médicos têm um certo 
receio de se basear em resultados realçados para chegar a 
um diagnóstico. No entanto, imagens realçadas são bas- 
tante úteis para salientar detalhes que podem servir como 
indicativos para análises posteriores da imagem original 
ou da sequência de imagens. Em outras áreas, o resultado 
realçado pode ser o produto final. Exemplos são encon- 
trados na indústria gráfica, na inspeção de produtos baseada 
em imagens, em investigações criminais, na microscopia, 
na área de segurança e em uma série de outras áreas nas 
quais o principal objetivo do realce é obter uma imagem 
com um maior conteúdo de detalhes visuais. 


3.8 Utilização de técnicas fuzzy para 
transformações de intensidade e 
filtragem espacial 


Concluiremos este capítulo com uma introdução 
aos conjuntos fuzzy (difusos) e sua aplicação para as 
transformações de intensidade e filtragem espacial, que 
são os principais tópicos de discussão nas seções anteriores. 
Essas duas aplicações estão entre as áreas mais frequentes 
nas quais as técnicas fuzzy são aplicadas para o processa- 
mento de imagens. As referências no final deste capítu- 
lo fornecem um ponto de partida para a literatura sobre 
conjuntos fuzzy e outras aplicações de técnicas fuzzy no 
processamento de imagens. Como veremos nas discus- 
sões a seguir, os conjuntos fuzzy proporcionam suporte 
para a incorporação do conhecimento humano à resolu- 
ção de problemas cuja formulação se baseia em conceitos 
imprecisos. 


3.8.1 Introdução 


Como observamos na Seção 2.6.4, um conjunto é 
uma coletânea de objetos (elementos), e a teoria dos con- 
juntos representa a série de ferramentas que lidam com 
operações envolvendo conjuntos. A teoria dos conjuntos, 
combinada à lógica matemática, é um dos axiomas fun- 
damentais da matemática clássica. No centro da teoria 
dos conjuntos, encontramos a noção de pertinência do 
conjunto. Estamos acostumados a lidar com os chamados 
conjuntos crisp (rígidos), cuja pertinência só pode ser ver- 
dadeira ou falsa no sentido tradicional da lógica booleana 
de dois valores, com 1 normalmente indicando verdadeiro 
e O indicando falso. Por exemplo, suponha que tenhamos Z 
expressando o conjunto de todas as pessoas e que queiramos 


definir um subconjunto, 4, de Z, chamado de “conjunto 
de pessoas jovens”. Para formar esse subconjunto, preci- 
samos definir uma função de pertinência” que atribua um 
valor 1 ou 0 a cada elemento, z, de Z. Como estamos li- 
dando com uma lógica de dois valores, a função de perti- 
nência simplesmente define um limiar no qual ou abaixo 
do qual uma pessoa é considerada jovem, e acima do qual 
uma pessoa é considerada não jovem. A Figura 3.44(a) 
resume esse conceito utilizando um limiar de idade de 
20 anos e com | (z) expressando a função de pertinência 
que acabamos de discutir. 


Vemos uma dificuldade imediata com essa formu- 
lação: uma pessoa de 20 anos de idade é considerada 
jovem, mas uma pessoa cuja idade é 20 anos e 1 segundo 
não pertence ao conjunto de pessoas jovens. Esse é um 
problema fundamental dos conjuntos crisp que limita a 
utilização da teoria clássica dos conjuntos em várias apli- 
cações práticas. O que precisamos é de mais flexibilidade 
no que queremos dizer com “jovem”, isto é, precisamos 
de uma transição gradual de jovem para não jovem. 
A Figura 3.44(b) mostra uma possibilidade. A principal 
característica dessa função é que ela possui um número 
infinito de valores, permitindo, assim, uma transição con- 
tínua entre jovem e não jovem. Isso possibilita ter graus 
de “juventude”. Agora podemos afirmar, por exemplo, 
que uma pessoa é jovem (extremidade plana superior 
da curva), relativamente jovem (mais para o começo da 
rampa), 50% jovem (no meio da rampa), não tão jovem 
(mais para o final da rampa) e assim por diante (observe 
que a inclinação descendente da curva na Figura 3.44(b) 
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Figura 3.44 Funções de pertinência utilizadas para gerar (a) um 
conjunto crisp (rígido) e (b) um conjunto fuzzy (difuso). 


As funções de pertinência também são chamadas de funções 
características. 
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faz com que nosso conceito de “jovem” seja menos preciso). 
Esses tipos de afirmações vagas (fuzzy) estão mais de acor- 
do com o que as pessoas utilizam quando falam de forma 
imprecisa sobre a idade. Dessa maneira, podemos inter- 
pretar infinitos valores das funções de pertinência como 
o fundamento de uma lógica fuzzy, e os conjuntos ge- 
rados utilizando essas funções podem ser considerados 
conjuntos fuzzy. Esses conceitos serão formalizados na 
próxima seção. 


3.82 Princípios da teoria dos conjuntos fuzzy 


A teoria dos conjuntos fuzzy foi apresentada por L. 
A. Zadeh em um artigo há mais de quatro décadas (Za- 
deh, 1965). Como a discussão a seguir demonstra, os 
conjuntos fuzzy proporcionam uma forma de lidar com 
informações imprecisas. 


Definições 


Seja Z um conjunto de elementos (objetos) e z um 
elemento genérico de Z; isto é, Z = (z).” Esse conjunto é 
chamado de universo de discurso. Um conjunto fuzzy” A em 
Z é caracterizado por uma função de pertinência, u, (z), que 
associa a cada elemento de Z um número real no intervalo 
[0, 1]. O valor de q (7) em z representa o grau de pertinên- 
cia de z em A. Quanto mais próximo de 1 for o valor de 
u,(z), maior é o grau de pertinência de z em A, e o con- 
trário ocorre quando o valor de u, (2) for mais próximo de 
0. O conceito de “pertence a”, tão utilizado em conjuntos 
comuns, não tem o mesmo significado na teoria dos con- 
juntos fuzzy. Com conjuntos comuns, dizemos que um 
elemento pertence ou não pertence a um conjunto. Com 
os conjuntos fuzzy, dizemos que todos os valores de z 
para os quais ju, (z) = 1 são membros totais do conjunto, todos 
os valores de z para os quais u, (z) = 0 não são membros do 
conjunto, e todos os valores de z para os quais |, (z) estão 
entre O e 1 são membros parciais do conjunto. Dessa for- 
ma, um conjunto fuzzy é um par ordenado consistindo de 
valores de ze uma função de pertinência correspondente 
que atribui um grau de pertinência a cada z. Isto é: 


A=[zu,(2)rez) 


Quando as variáveis são contínuas, o conjunto 4 
nessa equação pode ter um número infinito de elementos. 
Quando os valores de z são discretos, podemos mostrar 


(3.8-1) 


“ Seguimos a notação convencional dos conjuntos fuzzy utilizando 
Z, em vez da notação de conjuntos mais tradicional U, para indi- 
car o conjunto universo de uma dada aplicação. 

“™ A expressão subconjunto fuzzy também é utilizada na literatura, 
indicando que A é um subconjunto de Z. No entanto, a expressão 
conjunto fuzzy é utilizada com mais frequência. 
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os elementos de A explicitamente. Por exemplo, se os 
incrementos de idade da Figura 3.44 fossem limitados a 
anos inteiros, teríamos: 


A = {(1,1),(2,1), (5,1), (20,1), (21, 0.9), 
(22, 0,8),..., (25, 0,5) (24, 0,4),... (29, 0,1)} 


onde, por exemplo, o elemento (22, 0,8) indica que a 
idade 22 tem um grau de pertinência 0,8 no conjun- 
to. Todos os elementos com idades de 20 ou menos são 
membros totais do conjunto e aqueles com idades de 30 
ou mais não são membros do conjunto. Observe que um 
gráfico desse conjunto seria simplesmente um conjunto 
de pontos discretos sobre a curva da Figura 3.44(b), de 
forma que u, (z) definiria A completamente. Considerado 
de outra forma, vemos que um conjunto fuzzy discreto 
não é nada mais do que o conjunto de pontos de uma 
função que mapeia cada elemento do domínio do proble- 
ma (universo de discurso) em um número maior que 0 e 
menor ou igual a 1. Dessa forma, geralmente encontra- 
mos os termos conjunto fuzzy e função de pertinência sendo 
utilizados como sinônimos. 


Quando pu, (z) pode ter somente dois valores, diga- 
mos, 0 e 1, a função de pertinência se reduz à função 
característica conhecida de um conjunto comum (crisp) 
A. Assim, conjuntos comuns podem ser considerados um 
caso especial de conjuntos fuzzy. Em seguida, analisare- 
mos várias definições envolvendo conjuntos fuzzy que 
são extensões das definições correspondentes dos con- 
juntos comuns. 

e Conjunto vazio: um conjunto fuzzy é vazio se, e so- 
mente se, sua função de pertinência for exatamente 
iguala 0 em Z. 

e Igualdade: dois conjuntos fuzzy A e B sao iguais, indi- 
cados por A = B, se, e somente se, p, (Z) = ju, (z) para 
todo z € Z.” 

e Complemento: o complemento (NÃO) de um conjunto 
fuzzy A, indicado por A ou NAO(A), é definido como 
o conjunto cuja função de pertinência é: 

Halz)=1=pu, (z) (3.8-2) 
para todo z € Z. 

e Subconjunto: um conjunto fuzzy A é um subconjunto 

de um conjunto fuzzy B se, e somente se: 


1 (Z)< p(z) (3.8-3) 


para todo z € Z. 


* A notação “para todo z € Z” significa: “para todos os valores de z 
que pertencem a Z”. 


e União: a união (OU) de dois conjuntos fuzzy A e B, 
indicada por A U B, ou A OU B, é um conjunto fuzzy 
U com função de pertinência: 


Hy (Z) = máx [u (Z), 5 (Z)| (3.8-4) 


para todo z € Z. 


e Interseção: a interseção (E) de dois conjuntos fuzzy A 
e B, indicada por A N B, ou A E B, é um conjunto 
fuzzy Icom função de pertinência: 


H(z) = mín [u (2), 45 (2Z)] (3.8-5) 


para todo z € Z. 


Observe que os termos NÃO, OU e E são utilizados 
de forma equivalente ao trabalhar com os conjuntos fuzzy 
para indicar complementação, união e interseção, respec- 
tivamente. 


Exemplo 3.18 Ilustração das definições de conjuntos fuzzy. 


A Figura 3.45 ilustra algumas das definições citadas 
anteriormente. A Figura 3.45(a) mostra as funções de per- 
tinência de dois conjuntos, A e B, e a Figura 3.45(b) mostra 
a função de pertinência do complemento de A. A Figura 
3.45(c) mostra a função de pertinência da união de A e B, e 
a Figura 3.45(d) mostra o resultado correspondente da in- 
terseção desses dois conjuntos. Observe que essas figuras são 
compatíveis com a nossa noção habitual de complemento, 
união e interseção dos conjuntos crisp.” 

E 


Apesar de a probabilidade e a lógica fuzzy operarem 
ao longo do mesmo intervalo [0, 1], uma distinção sig- 
nificativa deve ser feita entre as duas. Vejamos o exem- 
plo da Figura 3.44. Uma afirmação probabilística pode- 
ria ser formulada como: “Existe 50% de chances de uma 
pessoa ser jovem”, ao passo que uma afirmação fuzzy 
seria “O grau de pertinência de uma pessoa dentro do 
conjunto de pessoas jovens é 0,5”. É importante notar a 
diferença entre essas duas afirmações. Na primeira afir- 
mação, uma pessoa é considerada como parte do con- 
junto de pessoas jovens ou do conjunto de pessoas não 


* Você provavelmente encontrará exemplos na literatura nos quais 
a área sob a curva da função de pertinência de, digamos, a interse- 
ção de dois conjuntos fuzzy, é sombreada para indicar o resultado 
da operação. Isso representa uma influência negativa das ope- 
rações de conjuntos comuns e é incorreto. Somente os pontos 
ao longo da própria função de pertinência são aplicáveis quando 
lidamos com conjuntos fuzzy. 
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Figura 3.45 (a) Função de pertinência de dois conjuntos, A e B. (b) Função de pertinência do complemento de A. (c) e (d) funções de pertinência 
da união e interseção dos dois conjuntos. 


jovens; temos apenas 50% de chances de saber a qual Sigma: 

conjunto a pessoa pertence. A segunda afirmação pres- 

supõe que a pessoa é jovem em algum nível — no caso, I-(a = z) tb a-b<z<a 

esse nível é de 0,5. Uma outra interpretação é dizer que u(z) =) ] z>a 

se trata de uma pessoa “meio” jovem: nao realmente 0 caso contrário (3.8-8) 


jovem, mas longe de ser não jovem. Em outras palavras, 
a lógica fuzzy não é probabilística; ela só lida com graus 
de pertinência em um conjunto. Nesse sentido, vemos 


Formato de S: 


que os conceitos da lógica difusa encontram aplicação 0 z<a 
em situações caracterizadas pela imprecisão e incerteza, Ia 
e não pela aleatoriedade. | | a<z<b 
c—a 
S(z;a,b,c) = 
Algumas funções de pertinência comuns ng Bae E i 2 
; E se. RE ds z = <ZA 
Os tipos de funções de pertinência utilizadas na prá- c—a 
tica incluem os seguintes. l z>c (3.8-9) 
Triangular: Formato de sino." 
1—(a—z)/b a-b<z<a l S(z;c—b,c—b/2,c) z<c 
w(z)=} 1-(z-a)/e  a<z<ate 1-S(z;c,c+b/2,ct+b) z>c (38-10) 
0 caso contrário (3.8-6) 
A função formato de sino algumas vezes é chamada 
de função II (ou 7). 
Trapezoidal: Gaussiana truncada: 
(ema) 
I-(a—z)/c a-c<z<a u(z)= e W a-c<z<a+c (3.8-11) 
l a<z<b 0 caso contrario 
n(z)= 


I-(z-b)/d b<z<b+d 
o * A função formato de sino algumas vezes é chamada de função II 
0 caso contrário (3.8-7) Bar. 
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Normalmente, só a variável independente, z, é in- 
cluída na expressão uz) para simplificar as equações. 
Abrimos uma exceção na Equação 3.8-9 para utilizar sua 
forma na Equação 3.8-10. A Figura 3.46 mostra exem- 
plos das funções de pertinência que acabamos de discutir. 
As três primeiras funções são lineares por partes em rela- 
ção a um conjunto de variáveis, as duas funções seguin- 
tes são suaves e a última função é uma função gaussia- 
na truncada. A Equação 3.8-9 descreve uma importante 
função em formato de S utilizada frequentemente ao tra- 
balhar com conjuntos fuzzy. O valor de z = b no qual S = 
0,5, nessa equação é chamado de ponto de inflexão. Como 
mostra a Figura 3.46(d), esse é o ponto no qual a curva 
muda de direção. Não é difícil demonstrar (Exercício 3.31) 
que b = (a + c)/2. Na curva em formato de sino da Figura 
3.46(e), o valor de b define a largura de banda da curva. 


3.8.3 Utilização dos conjuntos fuzzy 


Nesta seção, definimos as bases da utilização dos 
conjuntos fuzzy e ilustramos os conceitos resultantes com 
exemplos de situações simples e bem conhecidas. Depois 
aplicaremos os resultados ao processamento de imagens 
nas seções 3.8.4 e 3.8.5. Abordar a apresentação dessa 


forma facilita a compreensão do material, especialmente 
para leitores não familiarizados com a área. 


Suponha que estejamos interessados em utilizar 
cores para categorizar um determinado tipo de fruta em 
três grupos: não madura, meio madura e madura. Va- 
mos supor que observações de frutas em vários estágios 
de maturidade levaram à conclusão de que a fruta não 
madura é verde, a meio madura é amarela e a madura 
é vermelha. Os indicativos verde, amarelo e vermelho são 
descrições vagas da sensação de cor. Como um ponto 
de partida, essas indicações devem ser expressas em um 
formato fuzzy. Isto é, elas precisam ser fuzzificadas. Isso 
é feito definindo a pertinência como uma função da cor 
(comprimento de onda da luz), como mostra a Figura 
3.47(a). Nesse contexto, a cor é uma variável linguística e 
uma cor específica (por exemplo, vermelho em um com- 
primento de onda fixo) é um valor linguístico. Um valor 
linguístico, z, é fuzzificado utilizando funções de perti- 
nência para mapeá-lo no intervalo [0, 1], como mostra 
a Figura 3.47(b). 


O conhecimento específico do problema que acaba- 
mos de explicar pode ser formalizado na forma das regras 
fuzzy SE-ENTÃO (IF-THEN) a seguir:” 
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Figura 3.46 Funções de pertinência correspondentes as equações 3.8-6 a 3.8-11. 


* A parte de uma regra SE-ENTAO à esquerda de ENTÃO costuma ser chamada de antecedente (ou premissa). A parte à direita é chamada de 


consequente (ou conclusão). 
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Figura 3.47 (a) Funções de pertinência utilizadas para fuzzificar a 
cor. (b) Fuzzificação de uma cor específica (curvas descrevendo a sen- 
sação de cor têm formato de sino; veja um exemplo na Seção 6.1. 
Entretanto, costuma-se utilizar formatos triangulares como uma apro- 
ximação ao trabalhar com conjuntos fuzzy). 


R,: SE a cor for verde, ENTÃO a fruta está não madura. 
OU 

R: SE a cor for amarela, ENTÃO a fruta está meio madura. 
OU 

R,: SE a cor for vermelha, ENTÃO a fruta está madura. 


Essas regras representam a soma total do nosso co- 
nhecimento sobre o problema; elas nada mais são do que 
um formalismo para um processo de pensamento. 


O próximo passo do procedimento consiste em en- 
contrar uma forma de utilizar as informações de entra- 
da (cores) e a base de conhecimento representada pelas 
regras SE-ENTÃO para gerar o resultado de saída do sis- 
tema fuzzy. Esse processo é conhecido como implicação ou 
inferência. No entanto, antes de a implicação poder ser 
aplicada, o antecedente de cada regra precisa ser proces- 
sado para resultar em um único valor. Como mostraremos 
no final desta seção, várias partes de um antecedente estão 
ligadas por Es e OUs. Com base nas definições da Seção 
3.8.2, isso significa realizar operações mín e máx. Para 
simplificar a explicação, lidamos inicialmente com regras 
cujos antecedentes contêm apenas uma parte. 


Como estamos lidando com informações fuzzy, os re- 
sultados também serão fuzzy, de forma que funções de per- 
tinência também precisam ser definidas para os resultados. 
A Figura 3.48 mostra as funções de pertinência dos resul- 
tados fuzzy que utilizaremos neste exemplo. Observe que a 
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variávelindependente dos resultados é a maturidade, que é 
diferente da variável independente dos dados de entrada. 


As figuras 3.47 e 3.48, junto com a base de regras, 
contêm todas as informações necessárias para relacionar 
os dados de entrada com os de saída. Por exemplo, obser- 
vamos que a expressão vermelho E maduro nada mais é do 
que a operação de interseção (E) definida anteriormente. 
Neste caso, as variáveis independentes das funções de 
pertinência de entrada e de saída são diferentes, de forma 
que o resultado será bidimensional. Por exemplo, as fi- 
guras 3.49(a) e (b) mostram as funções de pertinência de 
vermelho e maduro, e a Figura 3.49(c) mostra como elas se 
relacionam nas duas dimensões. Para encontrar o resul- 
tado da operação E entre essas duas funções, lembre, com 
base na Equação 3.8-5, que E é definido como o mínimo 
das duas funções de pertinência, isto é: 


uz) = MÍN (pt (Z) Mal) (8-8-12) 


sendo que o 3 subscrito denota que esse é o resultado da 
regra R, da base de conhecimento. A Figura 3.49(d) mos- 
tra o resultado da operação E. 


A Equação 3.8-12 é um resultado geral envolvendo 
duas funções de pertinência. Na prática, estamos interes- 
sados na saída resultante de uma entrada específica. Seja 
z, um valor específico de vermelho. O grau de pertinên- 
cia do componente da cor vermelha em resposta a esse 
dado de entrada é simplesmente um valor escalar, p 


verm 


F H não (w) F a H meio (v) 


0,5 


Grau de pertinência 


© 


10 20 30 40 50 60 70 80 90 100 
Maturidade (%) 


Figura 3.48 Funções de pertinência caracterizando os resultados de 
saída não maduro, meio maduro e maduro. 


Observe que a Equação 3.8-12 é formada de pares ordenados 
de valores {f,,,,.(Z), H,ulV)) € lembre que um conjunto de pares 
ordenados normalmente é chamado de um produto cartesiano, 
indicado por X x V, sendo X um conjunto de valores (j,. (Z,), 
Hyer (Zeer Hyorm(Z,)} gerados a partir de 1... 4,,(Z) pela variação 
de z e V é um conjunto similar de n valores gerados a partir 
de ,,,(V) por meio da variação de v. Dessa forma, X x V 
AM em) Uni O) reco (Mrema) UncikU))) e vimos na Figura 
3.49(d) que a operação E envolvendo duas variáveis pode ser 
expressa como um mapeamento de X x V no limite [0, 1], indi- 
cado por X x V— [0,1] . Apesar de não utilizarmos essa notação 
nesta discussão, a mencionamos aqui porque você provavelmen- 
te irá encontrá-la na literatura sobre conjuntos fuzzy. 
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Figura 3.49 
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gaosia? 


(a) Formato da função de pertinência associada à cor vermelha e (b) função de pertinência da função de saída. Essas duas funções 


são associadas pela regra A}. (c) Representação combinada das duas funções. A representação é 2-D porque as variáveis independentes em (a) e 
(b) são diferentes. (d) A operação E de (a) e (b), como definida na Equação 3.8-5. 


(z,). Encontramos o resultado correspondente à regra R, 
para esse dado específico realizando a operação E entre 
Hiem(Zo) € O resultado geral, ju (z,v), calculado também em 
Z, Como observamos antes, a operação E é implementa- 
da utilizando a operação mínima: 


Qu) = min lt C) leo) (38-13) 


onde Q,(v) indica o resultado fuzzy em razão da regra R, e 
uma entrada específica. A única variável em Q, é a variá- 
vel de saída, v, como esperado. 


Para interpretar graficamente a Equação 3.8-13, va- 
mos retomar a Figura 3.49(d), que mostra a função geral 
(zv). Realizar a operação mínima de uma constante 
positiva, c, com essa função recortaria todos os valores 
de ju,(z,v) acima dessa constante, como mostra a Figura 
3.50(a). Contudo, estamos interessados apenas em um 
valor (z,) ao longo do eixo da cor, de forma que o resulta- 
do relevante é uma seção transversal da função truncada 
ao longo do eixo da maturidade, com a seção transversal 


posicionada em z, como mostra a Figura 3.50(b) [como 
a Figura 3.50(a) corresponde a regra R,, segue-se que 
C= Uem(Z)]. A Equação 3.8-13 é a expressão para essa 
seção transversal. 

Utilizando a mesma linha de raciocínio, obtemos as 
respostas fuzzy em razão das outras duas regras e da en- 


trada específica z,, como segue: 
QO) = MEN (ua C) Hs) (38-14) 


O (0) = min (ua) leo) (38-15) 


Cada uma dessas equações corresponde ao resul- 
tado de saída associado a uma regra particular e a um dado 
de entrada específico. Em outras palavras, elas represen- 
tam o resultado do processo de implicação mencionado 
alguns parágrafos atrás. Tenha em mente que cada uma 
dessas três respostas é um conjunto fuzzy, apesar de a 
entrada ser um valor escalar. 


Figura 3.50 (a) Resultado do cálculo da operação de mínimo entre uma constante arbitrária, c, e a função uz, v) a partir da Equação 3.8-12. 
O mínimo equivale a uma operação E. (b) Seção transversal (linha escura) em uma cor específica, Z,. 


Para obter a resposta geral, agregamos as respostas 
individuais. No conjunto de regras definido no início des- 
ta seção, as três regras estão associadas pela operação OU. 
Dessa forma, o resultado fuzzy completo (agregado) é 
dado por: 


Q =Q, OR Q, OR Q, (3.8-16) 


e vemos que a resposta geral é a união de três conjuntos 
fuzzy individuais. Como OU é definido como uma opera- 
ção máx, podemos escrever esse resultado como: 


Ql) = máx [mín (u,e) 4,2, 0} 6-8-17) 


para r = {1, 2, 3} e s = (verde, amarelo, vermelho). Apesar de 
ter sido desenvolvida no contexto de um exemplo, essa 
expressão é perfeitamente genérica; para estendê-la a n 
regras, simplesmente fazemos com que r = {1, 2, ..., m}; de 
forma similar, podemos expandir s para incluir qualquer 
número finito de funções de pertinência. As equações 
3.8-16 e 3.8-17 afirmam a mesma coisa: a resposta, Q, do 
nosso sistema fuzzy, é a união de conjuntos fuzzy indivi- 
duais resultantes de cada regra por meio do processo de 
implicação. 

A Figura 3.51 resume graficamente a discussão 
até este ponto. A Figura 3.51(a) mostra as três funções 
de pertinência de entrada calculadas em z, e a Figura 
3.51 (b) mostra as saídas em resposta à entrada z,. Esses 
conjuntos fuzzy correspondem às seções transversais re- 
cortadas discutidas em relação à Figura 3.50(b). Obser- 
ve que, numericamente, Q consiste só em Os porque 
Lverie(Zo) = O; isto é, Q, é vazio, de acordo com a definição 
da Seção 3.8.2. A Figura 3.51(c) mostra o resultado final, 
Q, que também é um conjunto fuzzy, formado a partir da 
união de Q,, Q, e Q, 

Conseguimos obter com sucesso a saída completa 
correspondente a uma entrada específica, mas ainda es- 
tamos lidando com um conjunto fuzzy. O último passo 
é obter um resultado crisp, v, a partir do conjunto fuzzy 
Q utilizando um processo chamado de defuzzificação. Há 
várias maneiras de defuzzificar Q para obter um resultado 
crisp. Uma das metodologias utilizadas com mais frequência 
consiste em calcular o centro de gravidade desse conjunto 
(as referências citadas no final deste capítulo mencionam 
outras). Dessa forma, se Q(v) na Equação 3.8-17 pode ter 
K valores possíveis, Q(1), Q(2), ... Q(K), seu centro de 
gravidade é dado por 


E Q(v) 


a 
0 K 
>al) 


(3.8-18) 
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Figura 3.51 (a) Funções de pertinência com uma cor específica, z,, 
selecionada. (b) Conjuntos fuzzy individuais obtidos a partir das equa- 
ções 3.8-13 a 3.8-15. (c) Conjunto fuzzy final obtido com a utilização da 
Equação 3.8-16 ou 3.8-17. 


Calcular essa equação com os valores (discretos)* de 
Q na Figura 3.51(c) resulta em v, = 72,3, indicando que 
a determinada cor z implica uma maturidade de aproxi- 
madamente 72%. 


Até este ponto, consideramos regras SE-ENTÃO 
cujos antecedentes têm apenas uma parte, como “SE a 
cor for vermelha”. Regras contendo mais de uma parte 
devem ser combinadas para resultar em um único número 
representando todos os antecedentes para essa regra. Por 
exemplo, suponha que temos a regra: SE a cor for ver- 
melha OU a consistência for macia, ENTÃO a fruta está 
madura. Uma função de pertinência teria de ser definida 


* O conjunto fuzzy Q da Figura 3.51(c) é mostrado como uma cur- 
va sólida para facilitar a visualização, mas tenha em mente que 
estamos lidando com valores digitais neste livro, de forma que Q 
é uma função digital. 
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para a variável linguística macia. Então, para obter um 
único número para essa regra que leve em considera- 
ção as duas partes do antecedente, primeiro avaliamos 
um determinado valor de cor de entrada para o verme- 
lho, utilizando a função de pertinência vermelho e um 
determinado valor de consistência utilizando a função 
de pertinência macio. Como as duas partes estão vin- 
culadas por OU, utilizamos o máximo dos dois valores 
resultantes”. Esse valor é então utilizado no processo 
de implicação para “recortar” a função de pertinência 
de saída maduro, que é a função associada a essa regra. 
O restante do procedimento é igual ao descrito ante- 
riormente, como mostra o resumo a seguir. 


A Figura 3.52 mostra o exemplo da fruta utilizan- 


M 1. Fuzzificar a ace 


verde dura 


2. Aplicar a(s) operação(ões) de 
lógica(s) fuzzy (OU = máx). 


do duas entradas: cor e consistência. Podemos utilizar essa 
figura e as informações anteriores para resumir os princi- 
pais passos a serem seguidos na aplicação da lógica fuzzy 
baseada em regras: 


1. Fuzzificar a entrada: para cada entrada escalar, en- 
contre os valores fuzzy correspondentes mapeando 
essa entrada no intervalo [0, 1], utilizando as fun- 
ções de pertinência aplicáveis em cada regra, como 
mostram as duas primeiras colunas da Figura 3.52. 


2. Realizar quaisquer operações de lógica fuzzy necessá- 
rias: as saídas de todas as partes de um antecedente 
devem ser combinadas para gerar um único valor 
utilizando a operação máx ou mín, dependendo de 
as partes estarem conectadas por OUs ou por Es. 


3. Aplicar o método 
de implicação (mín). 


não madura 


SE acorforverde OU aconsistência for dura, 


ENTÃO 


a fruta não está madura. 


T 
I 
! 
I 
I 
amarela I 
I 
I 


SE acor for amarela OU a consistência for média, ENTÃO a fruta está meio madura. 


vermelha 


SE acorfor vermelha OU a consistência for macia, 


ENTÃO 


4. Aplicar o 
método de 


a fruta está madura. 


Entrada 1 
Cor (zo) 


Entrada 2 
Consisténcia (cy) 


Maturidade (vo) 


agregação (máx). 


5. Defuzzificar 
(centro de 
gravidade). 


Saída q 


Figura 3.52 Exemplo ilustrando os cinco passos básicos normalmente utilizados para implementar um sistema fuzzy baseado em regras: (1) 
fuzzificação, (2) operações lógicas (somente OU foi utilizado neste exemplo), (3) implicação, (4) agregação e (5) defuzzificação. 


* Antecedentes cujas partes são conectadas por Es são calculados de forma similar utilizando a operação min. 


Na Figura 3.52, todas as partes dos antecedentes são 
conectadas por OUs, de forma que utilizamos a ope- 
ração máx. O número de partes de um antecedente 
e o tipo de operador lógico utilizado para conectá-los 
difere de uma regra a outra. 


3. Aplicar um método de implicação: uma única saída do 
antecedente de cada regra é utilizada para proporcio- 
nar a saída correspondente a essa regra. Utilizamos 
E para a implicação, que é definida como a operação 
mín. Isso recorta a função de pertinência correspon- 
dente de saída no valor fornecido pelo antecedente, 
como mostram a terceira e a quarta colunas da Fi- 
gura 3.52. 


4. Aplicar um método de agregação aos conjuntos fuzzy do 
passo 3: como mostra a última coluna da Figura 3.52, 
o resultado de cada regra é um conjunto fuzzy. Eles 
devem ser combinados para levar a um único con- 
junto fuzzy de saída. A metodologia utilizada aqui 
consiste em aplicar o OU para as saídas individuais, 
para que a operação máx seja empregada. 

5. Defuzzificar o conjunto fuzzy de saída final: neste passo 
final, obtemos uma saída escalar crisp. Isso é feito 
calculando o centro de gravidade do conjunto fuzzy 
agregado do passo 4. 

Quando o número de variáveis for grande, costu- 
ma-se utilizar a notação resumida (variável, conjunto 
fuzzy) para relacionar a variável à sua função de pertinência 
correspondente. Por exemplo, a regra “SE a cor for verde, 
ENTÃO a fruta está não madura” seria escrita como “SE (z, 
verde) ENTÃO (v, não madura)”, sendo que, como antes, 
as variáveis z e v representam cor e grau de maturidade, 
respectivamente, ao passo que verde e não maduro são os 
dois conjuntos fuzzy definidos pelas funções de pertinên- 
cia Hegel?) © H,;,(V), respectivamente. 

Em geral, ao lidar com M regras SE-ENTAO, N va- 
riaveis de entrada, Z, Z, ... Zą e uma variável de saída, 
v, o tipo de formulação de regra fuzzy utilizado com mais 
frequência no processamento de imagens tem a forma 

SE (Z, Ai) E (2, Ay) E... E (Zy Ay)» ENTÃO (v,B,) 

SE (Z, 4,)) E (2, 4,,) E... E (2, 4), ENTÃO (v, B,) 


JE... E (Zy Ay), ENTÃO (v, B) 
SENÃO (v, B,) 

(3.8-19) 

onde 4, é o conjunto fuzzy associado à i-ésima regra e à 

j-ésima variável de entrada, B, é o conjunto fuzzy associado 

à saída da i-ésima regra e consideramos que os compo- 
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nentes dos antecedentes da regra sejam conectados por 
Es. Observe que introduzimos uma regra SENÃO (ELSE), 
associada ao conjunto fuzzy B,. Essa regra é executada 
quando nenhuma das regras anteriores for completa- 
mente satisfeita; sua saída é explicada a seguir. 


Como indicado anteriormente, todos os elementos 
do antecedente de cada regra devem ser calculados para 
gerar um único valor escalar. Na Figura 3.52, utilizamos 
a operação máx porque as regras se baseavam em OUs 
fuzzy. A formulação da Equação 3.8-19 utiliza Es, de for- 
ma que precisamos utilizar o operador mín.” Calcular os 
antecedentes da i-ésima regra na Equação 3.8-19 produz 
uma saída escalar, À, dada por: 


Asmin (e): j=1,2,—,N) (8.820) 


parai=1,2,...,M, sendo pu ig (z) a função de pertinência 
do conjunto na A, calculada no valor da j j-ésima entra- 
da. Muitas vezes, x é chamado de nível de força (ou nível 
de ativação) da i-ésima regra. No que se refere à discussão 
anterior, \ é simplesmente o valor utilizado para recortar 
a função de saída da i-ésima regra. 


A regra SENÃO é executada quando as condições 
das regras ENTÃO são satisfeitas de forma fraca (damos 
um exemplo detalhado de como as regras SENÃO são uti- 
lizadas na Seção 3.8.5). Sua resposta deve ser forte quan- 
do todas as outras são fracas. Em certo sentido, é possível 
considerar uma regra SENÃO como uma operação NÃO 
sobre os resultados das outras regras. Sabemos, a partir da 
Seção 3.8.2, que Unso(ay = HalZ)=1— u, (Z). Dessa forma, 
aplicar essa ideia de combinar (efetuar as operações E) 
todos os níveis das regras ENTÃO leva ao seguinte nível 
de ativação para a regra SENÃO: 

A,= min{1 - à; 


i=1, 2,...,M} (3.8-21) 


Vemos que, se todas as regras ENTAO forem ativa- 
das em “força maxima” (todas as suas respostas forem 1), 
a resposta da regra SENÃO é 0, como o esperado. À me- 
dida que as respostas das regras ENTÃO tornam-se mais 
fracas, a força da regra SENÃO aumenta. Esse é o equi- 
valente fuzzy das regras SE-ENTÃO-SENÃO, muito utili- 
zadas em linguagem de programação de computadores. 

Ao lidar com OUs nos antecedentes, simplesmente 
substituímos os Es na Equação 3.8-19 por OUs e a mín na 
Equação 3.8-20 por uma máx; a Equação 3.8-21 perma- 
nece inalterada. Apesar de ser possível formular antece- 


* A utilização de OU ou E no conjunto de regras depende de como 
as regras são formuladas, o que, por sua vez, depende do proble- 
ma em questão. Utilizamos OUs na Figura 3.52 e Es na Equação 
3.8-19 para que você se familiarize com as duas formulações. 
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dentes e consequentes mais complexos do que os discu- 
tidos aqui, as formulações que desenvolvemos utilizando 
apenas Es e OUs são bastante genéricas e utilizadas em 
uma ampla variedade de aplicações de processamento de 
imagens. As referências no final deste capítulo contêm 
definições adicionais (mas menos utilizadas) de operado- 
res de lógica fuzzy e abordam outros métodos para a impli- 
cação (incluindo saídas múltiplas) e defuzzificação. A in- 
trodução apresentada nesta seção é fundamental e serve 
como uma base sólida para leituras mais avançadas sobre 
assunto. Nas duas seções seguintes, mostraremos como 
aplicar os conceitos fuzzy ao processamento de imagens. 


3.84 Utilização de conjuntos fuzzy para 
transformações de intensidade 


Vamos analisar o problema geral de realce de con- 
traste, uma das principais aplicações das transformações 
de intensidade. Podemos expressar o processo de realce de 
contraste de uma imagem em escala de cinza utilizando 
as seguintes regras: 


SE um pixel for escuro, ENTÃO faça com que ele fique 
mais escuro. 


SE um pixel for cinza, ENTÃO faça com que ele fique cinza. 


SE um pixel for claro, ENTÃO faça com que ele fique mais 
claro. 


Tendo em mente que esses são termos fuzzy, po- 
demos expressar os conceitos de escuro, cinza e claro por 
meio das funções de pertinência da Figura 3.53(a). 


Em termos da saída, podemos considerar mais escu- 
ro como sendo graus de um valor de intensidade escura 
(100% preto sendo o tom limitador de escuro), mais claro 
como graus de um tom mais claro (100% branco sendo o 
valor limitador) e cinza como sendo graus de uma inten- 
sidade no meio da escala de cinza. Neste caso, por “graus” 
nos referimos à quantidade de uma intensidade especi- 
fica. Por exemplo, 80% preto é um cinza muito escuro. 
Quando interpretadas como intensidades constantes cuja 
força é modificada, as funções de pertinência de saída são 
singulares (funções de pertinência constantes), como mos- 
tra a Figura 3.53(b). Os vários níveis de uma intensidade 
no intervalo [0, 1] ocorrem quando as funções singula- 
res são recortadas pela força da resposta de suas regras 
correspondentes, como mostra a quarta coluna da Figura 
3.52 (mas mantenha em mente que estamos trabalhando 
aqui apenas com uma entrada, não duas, como na figu- 
ra). Como estamos lidando com constantes nas funções 
de pertinência de saída, segue-se, da Equação 3.8-18, que 
a saída, v, para qualquer entrada, z, é dada por 


Mescuro(Z ) Metaro(Z ) 


0,5 


HeinzalZ ) 


0 Zz 
b 4 

1 

HM mais escuro(V) 
0,5 
Eeinza(V) H mais claro(V) 
0 -=v 
Va Ug Up 


Figura 3.53 (a) Entrada e (b) funções de pertinência de saída para 
realce de contraste fuzzy, baseado em regras. 


Hescuro (Zo) x Ug T Heinza (Zo) x v, + Haaro (Zo) x U, 
Hescuro (Zo V+ Heinza (Zo )+Haaro (Zo ) (3.8-22) 


Vo = 


Os somatórios do numerador e do denominador des- 
sas expressões são mais simples do que na Equação 3.8-18 
porque as funções de pertinência de saída são constantes 
modificadas (recortadas) pelos valores fuzzificados. 


O processamento de imagens por lógica fuzzy é 
computacionalmente intensivo porque todo o processo 
de fuzzificação, processando os antecedentes de todas as 
regras, implicação, agregação e defuzzificação, deve ser 
aplicado a cada pixel da imagem de entrada. Dessa for- 
ma, utilizar funções singulares como na Equação 3.8-22 
reduz significativamente os requisitos de processamento 
computacional, simplificando a implicação, a agregação e 
a defuzzificação. Essa redução pode ser significativa em 
aplicações nas quais a velocidade do processamento é 
um requisito importante. 


Exemplo 3.19 Ilustração do realce de imagens 
utilizando modificação de contraste por 
lógica fuzzy baseada em regras. 


A Figura 3.54(a) mostra uma imagem cujas intensi- 
dades cobrem uma faixa estreita da escala de cinza (veja o 
histograma da imagem na Figura 3.55(a)), dando à imagem 
uma aparência de baixo contraste. Como uma base para 
comparação, a Figura 3.54(b) mostra o resultado da equali- 
zação de histograma. Como mostra o histograma da imagem 
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Figura 3.54 
por lógica fuzzy baseada em regras. 


equalizada (Figura 3.55(b)), expandir toda a escala de cinza 
de fato aumenta o contraste, mas acrescenta intensidades 
na extremidade superior e inferior que dão à imagem uma 
aparência de “superexposição”. Por exemplo, os detalhes da 
testa e dos cabelos do professor Einstein são, na maior parte, 
perdidos. A Figura 3.54(c) mostra o resultado da utilização 
da metodologia de modificação de contraste baseada em re- 
gras discutidas nos parágrafos anteriores. A Figura 3.55(c) 
mostra as funções de pertinência de entrada utilizadas, sobre- 
postas no histograma da imagem original. As saídas singulares 
foram selecionadas em v, = 0 (preto), v = 127 (cinza médio) 
e v, = 255 (branco). | 


Comparando as figuras 3.54(b) e 3.54(c), nesta últi- 
ma vemos uma considerável melhora da tonalidade. Obser- 


(a) Uma imagem de baixo contraste. (b) Resultado da equalização de histograma. (c) Resultado da utilização do realce de contraste 


ve, por exemplo, o nível de detalhes na testa e nos cabelos, 
em comparação com as mesmas regiões na Figura 3.54(b). 
A razão para a melhora pode ser facilmente explicada ana- 
lisando o histograma da Figura 3.54(c), mostrada na Figura 
3.55(d). Diferentemente do histograma da imagem equa- 
lizada, esse histograma manteve as mesmas características 
básicas do histograma da imagem original. Entretanto, é evi- 
dente que os níveis escuros (os picos na extremidade baixa 
do histograma) foram movidos para a esquerda, escurecendo 
os níveis. O oposto aplica-se aos níveis claros. Os tons de 
cinza médios foram ligeiramente espalhados, muito menos 
do que na equalização do histograma. 


O preço dessa melhora do desempenho é uma com- 
plexidade de processamento consideravelmente maior. Uma 


a 
| Mt atas | f fi Lh | | | | | | | | | | | | | | 
0 63 127 191 255 0 63 127 191 255 
C 
Hescuro(Z) Hetaro(Z) 
Hcinza(Z) 
0 63 127 191 255 0 63 127 191 255 


Figura 3.55 
3.54(c). 


(a) e (b) Histograma das figuras 3.54(a) e (b). (c) Funções de pertinência de entradas sobrepostas em (a). (d) Histograma da Figura 
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abordagem prática a ser seguida quando a velocidade de 
processamento e o resultado final da imagem forem fatores 
importantes consiste em utilizar técnicas fuzzy para definir 
como deveria ser a aparência dos histogramas de imagens 
bem equilibradas. Então, técnicas mais rápidas, como a es- 
pecificação de histograma, podem ser utilizadas para atingir 
resultados similares mapeando os histogramas das imagens 
de entrada em um ou mais histogramas “ideais” determina- 
dos com a utilização da metodologia fuzzy. 

a 


38.5 Utilização de conjuntos fuzzy para filtragem 
espacial 


Ao aplicar conjuntos fuzzy à filtragem espacial, a 
metodologia básica é definir propriedades de vizinhança 
que “capturem” a essência do que os filtros devem detec- 
tar. Por exemplo, vamos analisar o problema da detecção 
de fronteiras entre regiões de uma imagem. Isso é impor- 
tante em várias aplicações de processamento de imagens, 
como o aguçamento, que discutimos anteriormente nesta 
seção, e na segmentação de imagens, que discutiremos 
no Capítulo 10. 


Podemos desenvolver um algoritmo de extração 
de fronteiras com base em um simples conceito fuzzy: Se 
um pixel pertencer a uma região uniforme, faça com que ele 
seja branco; senão, faça com que ele seja preto, onde preto e 
branco são conjuntos fuzzy. Para expressar o conceito de 
uma “região uniforme” em termos fuzzy, podemos levar 
em consideração as diferenças de intensidade entre o 
pixel central de uma vizinhança e seus vizinhos. Para a 
vizinhança 3 x 3 da Figura 3.56(a), as diferenças entre 
o pixel central (definido como z,) e cada um dos vizi- 
nhos formam a subimagem de tamanho 3 x 3 na Figura 
3.56(b), sendo que d indica a diferença de intensidade 
entre o i-ésimo vizinho e o ponto central (isto é, d = z, 
— z,, onde os valores de z correspondem à intensidade). 
Um conjunto simples de quatro regras SE-ENTÃO e uma 


| 
[NZE 
0 
RE] 0 E=i 


Diferenças de intensidade 


Figura 3.57 


a b 
Z1 22 Z3 dy dy ds 
Z4 Z5 Z6 dá 0 de 
27 Zg Z9 dy dg dy 


Vizinhanga de pixel Diferengas de intensidade 


Figura 3.56 (a) Vizinhança de pixel 3 x 3. (b) Diferenças de intensi- 
dade correspondentes entre o pixel central e seus vizinhos. Somente 
d, d, d, e d, foram utilizados na presente aplicação para simplificar 
a análise. 


regra SENÃO implementa a essência do conceito fuzzy 
mencionado no início deste parágrafo: 


SE d, for zero E d, for zero, ENTÃO z, é branco 
SE d, for zero E d, for zero, ENTÃO z, é branco 
SE d, for zero E d, for zero, ENTÃO z, é branco 
SE d, for zero E d, for zero, ENTÃO z, é branco 
SENÃO z, é preto 


onde zero também é um conjunto fuzzy. A consequente 
de cada regra define os valores nos quais a intensidade do 
pixel central (z,) é mapeada. Isto é, a afirmação “ENTÃO 
z, é branco” significa que a intensidade do pixel locali- 
zado no centro da máscara é mapeada em branco. Essas 
regras simplesmente afirmam que o pixel central é con- 
siderado parte de uma região uniforme se as diferenças 
de intensidade que acabamos de mencionar forem zero 
(em um sentido fuzzy); de outra forma, ele é considerado 
como um pixel de fronteira. 

A Figura 3.57 mostra possíveis funções de pertinência 
para os conjuntos fuzzy zero, preto e branco, respectivamente, 
onde utilizamos ZE, PR e BR para simplificar a notação. 
Observe que o intervalo da variável independentemente 
do conjunto fuzzy ZE para uma imagem com L possíveis 


b 
o q 
| 
0 L-1 


Intensidade 


(a) Função de pertinência do conjunto fuzzy zero. (b) Funções de pertinência dos conjuntos fuzzy preto e branco. 


* Utilizamos apenas as diferenças de intensidade entre os vizinhos-4 e o ponto central para simplificar o exemplo. A utilização dos vizi- 


nhos-8 seria uma extensão direta da abordagem demonstrada aqui. 


níveis de intensidade é [-L + 1, L — 1] porque as diferen- 
ças de intensidade podem variar entre -(L- 1) e (L- 1). 
Por outro lado, o intervalo das intensidades de saída é [0, 
L- 1], como na imagem original. A Figura 3.58 mostra 
graficamente as regras citadas, onde o quadro indicado 
por z, mostra que a intensidade do pixel central é mape- 
ada no valor de saída BR ou PR. 


E 

Exemplo 3.20 Ilustração do realce de fronteira 
utilizando a filtragem espacial fuzzy 
baseada em regras. 


A Figura 3.59(a) mostra uma imagem 512 x 512 de 
uma cabeça humana, gerada por tomografia computadorizada, 
e a Figura 3.59(b) é o resultado da aplicação da metodo- 
logia de filtragem espacial fuzzy que acabamos de discutir. 
Observe a eficácia do método na extração das fronteiras en- 
tre as regiões, inclusive o contorno do cérebro (região cinza 
interna). As regiões constantes na imagem aparecem como 
cinza porque, quando as diferenças de intensidade discuti- 
das anteriormente são próximas de zero, as regras ENTÃO 
têm uma resposta mais forte. Essas respostas, por sua vez, 
recortam a função BR. A saída (o centro de gravidade das re- 
giões triangulares recortadas) é uma constante entre (L — 1)/2 
e (L- 1) produzindo, dessa forma, o tom acinzentado visto 
na imagem. O contraste dessa imagem pode ser significati- 
vamente melhorado por meio da expansão da escala de cinza. 
Por exemplo, a Figura 3.59(c) foi obtida por meio do ajuste 
de intensidade definido nas equações 2.6-10 e 2.6-11, com 
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K=L-1.0O resultado final é que os valores de intensidade 
da Figura 3.59(c) cobrem toda a escala de cinza de 0a (L-1). 
= 


Resumo 


O material que acabamos de analisar é representa- 
tivo das técnicas atuais utilizadas para as transformações 
de intensidade e filtragem espacial. Os tópicos incluídos 
neste capítulo foram selecionados por seu valor como 
material fundamental que deve servir de base para uma 
área em constante evolução. Apesar de a maioria dos 
exemplos utilizados neste capítulo estar relacionada ao 
realce de imagens, as técnicas apresentadas são perfeita- 
mente genéricas e serão retomadas ao longo dos capítulos 
seguintes em contextos não relacionados ao realce. No 
capítulo seguinte, voltaremos a analisar o processo de 
filtragem, mas utilizando conceitos do domínio da fre- 
quência. Veremos uma correspondência um a um entre 
os filtros espaciais lineares estudados aqui e os filtros no 
domínio da frequência. 


Referências e leituras complementares 


O material apresentado na Seção 3.1 é provenien- 
te de Gonzalez (1986). Leituras adicionais para o material 
da Seção 3.2 podem ser encontradas em Schowengerdt 
(1983), Poyton (1996) e Russ (1999). Veja também 
o artigo de Tsujii et al. (1998) sobre as otimização de 
monitores de imagens. Algumas referências sobre o pro- 


SE SE 
ZE 
ENTÃO ENTÃO 
Z5 ZE —| BR Zs ZE ——>| BR 
ZE 
Regra 1 Regra 2 
SE SE 
ZE 
ENTAO ENTAO 
ZE Z5 | BR ZE 25 —>]| BR 
ZE 
Regra 3 Regra 4 
SENAO| zs —— 


Figura 3.58 Regras fuzzy para a detecção de fronteiras. 
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Figura 3.59 


(a) Tomografia computadorizada de uma cabeça humana. (b) Resultado da filtragem espacial fuzzy utilizando as funções de perti- 


nência da Figura 3.57 e as regras da Figura 3.58. (c) Resultado após o ajuste de intensidade. Os quadros pretos delimitando a imagem em (b) e (c) 
foram acrescentados para facilitar a visualização e não fazem parte dos dados. (Imagem original: cortesia do Dr. David R. Pickens, Universidade 


de Vanderbilt.) 


cessamento de histogramas são Hummel (1974), Gonzalez 
e Fittes (1977) e Woods e Gonzalez (1981). Stark (2000) 
apresenta generalizações interessantes da equalização de 
histogramas para realce de contraste adaptativo. Outras 
abordagens para o realce de contraste são exemplificadas 
por Centeno e Haertel (1997) e Cheng e Xu (2000). Para 
leituras adicionais sobre a especificação exata de histogra- 
mas, veja Coltuc, Bolon e Chassery (2006). Para extensões 
do método de equalização local de histograma, veja Caselles 
et al. (1999) e Zhu et al. (1999). Veja Narendra e Fitch 
(1981) sobre a utilização e implementação de estatísticas 
locais para o processamento de imagens. Kim et al. (1997) 
apresentam uma abordagem interessante combinando o 
gradiente com estatísticas locais para realce de imagens. 


Para leituras adicionais sobre filtros espaciais linea- 
res e sua implementação, veja Umbaugh (2005), Jain 
(1989) e Rosenfeld e Kak (1982). Filtros de ordenação 
(classificação) também são discutidos nessas referências. 
Wilburn (1998) analisa generalizações dos filtros de or- 
denação. O livro de Pitas e Venetsanopoulos (1990) tam- 
bém lida com o filtro de mediana e outros filtros espaciais 
não lineares. Uma edição especial de IEEE Transactions in 
Image Processing (1996) é dedicada ao processamento não 
linear de imagens. O material sobre filtragem Aigh-boost é 
de Schowengerdt (1983). Retomaremos muitos dos fil- 
tros espaciais apresentados neste capítulo em discussões 
sobre a restauração de imagens (Capítulo 5) e detecção 
de bordas (Capítulo 10). 


Referências fundamentais para a Seção 3.8 são três 
artigos sobre a lógica fuzzy de L. A. Zadeh (Zadeh, 1965, 
1973, 1976). Esses artigos são muito bem escritos e vale 
a pena estudá-los em detalhes, já que estabeleceram os 
fundamentos para a lógica fuzzy e algumas de suas apli- 


cações. Uma visão geral de uma ampla variedade de aplica- 
ções da lógica fuzzy no processamento de imagens pode 
ser encontrada no livro de Kerre e Nachtegael (2000). 
O exemplo da Seção 3.8.4 baseia-se em uma aplicação 
similar descrita por Tizhoosh (2000). O exemplo da Seção 
3.8.5 é basicamente de Russo e Ramponi (1994). Para 
exemplos adicionais de aplicações dos conjuntos fuzzy às 
transformações de intensidade e filtragem de imagens, 
veja Patrascu (2004) e Nie e Barner (2006), respectiva- 
mente. Essas referências, que variam de 1965 a 2006, 
representam um bom ponto de partida para um estudo 
mais detalhado das várias formas nas quais os conjuntos 
fuzzy podem ser utilizados no processamento de imagens. 
A implementação computacional da maioria dos métodos 
discutidos neste capítulo pode ser encontrada em Gonza- 
lez, Woods e Eddins (2004). 


Exercícios” 


“3.1 Elabore uma função de transformação de intensida- 
de para distribuir (expandir) as intensidades de uma 
imagem de forma que a menor intensidade seja 0, e a 
maior seja L- 1. 

3.2 Exponenciais na forma e*?, sendo a uma constante 
positiva, são úteis para construir funções de transfor- 
mação de intensidade suaves. Comece com essa fun- 
ção básica e construa funções de transformação que 
tenham os formatos gerais mostrados nas figuras a 
seguir. As constantes mostradas são parâmetros de en- 
trada, e suas transformações propostas devem incluí- 
-las na especificação. (Para simplificar suas respostas, 
L, não é um parâmetro necessário na terceira curva.) 


* Soluções detalhadas dos exercícios marcados com um asterisco 
podem ser encontradas no site do livro. O site também inclui pro- 
jetos sugeridos com base no conteúdo deste capítulo. 


3.3 (a) Elabore uma função contínua para implementar a 


transformação de alargamento de contraste mos- 
trada na Figura 3.2(a). Além de m, sua função deve 
incluir um parâmetro, E, para controlar a inclina- 
ção da função à medida que ela faz a transição de 
valores de intensidade baixa para alta. Sua função 
deve ser normalizada, de forma que seus valores 
mínimo e máximo sejam 0 e 1, respectivamente. 


(b) Esboce uma família de transformações como 
uma função do parâmetro E, para um valor fixo 
m = L/2, sendo L o número de níveis de intensidade 
da imagem. 


(c) Qual é o menor valor de E que fará com que sua 
função tenha um desempenho efetivamente igual ao 
da função da Figura 3.2(b)? Em outras palavras, 
sua função não precisa ser idêntica à Figura 3.2(b). 
Ela só precisa gerar o mesmo resultado na produção 
de uma imagem binária. Considere que você esteja 
trabalhando com imagens de 8 bits e faça m = 128. 
Faça com que C seja o menor número positivo repre- 
sentável no computador que está sendo utilizado. 


3.4 Proponha um conjunto de transformações de fatiamen- 


to de intensidade capazes de produzir todos os planos 
de bits individuais de uma imagem monocromática de 
8 bits. (Por exemplo, uma função de transformação 
com a propriedade T(r) = 0 para r no intervalo [0, 127], 
e T(r) = 255 para r no intervalo [128, 255] produz uma 
imagem do oitavo plano de bits em uma imagem de 8 
bits.) 


3.5 (a) Qual seria o efeito geral no histograma de uma ima- 


gem de zerar todos os planos de bits de baixa ordem? 


(b) Qual seria o efeito sobre o histograma se zerásse- 
mos os planos de bits de alta ordem? 


3.6 


3.7 


3.8 
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Explique por que a técnica de equalização de histogra- 
ma discreto não resulta, em geral, em um histograma 
uniforme. 


Suponha que uma imagem digital passe por um pro- 
cesso de equalização de histograma. Mostre que um 
segundo passo do processo de equalização de histogra- 
ma (na imagem já equalizada) produzirá exatamente o 
mesmo resultado que o primeiro. 

Em algumas aplicações é útil modelar o histograma das 
imagens de entrada como funções de densidade de pro- 
babilidade gaussiana na forma: 


onde m e o são a média e o desvio padrão da função de 
densidade de probabilidade gaussiana. A metodologia 
é fazer com que m e o sejam medidas da intensidade 
média e contraste de uma determinada imagem. Qual 
é a função de transformação que você utilizaria para a 
equalização de histograma? 

Considerando valores contínuos, mostre, por meio de 
um exemplo, que é possível ter um caso no qual a fun- 
ção de transformação dada na Equação 3.3-4 satisfaça 
as condições (a) e (b) da Seção 3.3.1, mas seu inverso 
pode deixar de satisfazer a condição (a’). 


3.10 (a) Mostre que a função de transformação discreta dada 


pela Equação 3.3-8 para a equalização de histogra- 
ma satisfaz as condições (a) e (b) da Seção 3.3.1. 

“(b) Mostre que a transformação inversa discreta da 
Equação 3.3-9 satisfaz as condições (a”) e (b) da Seção 
3.3.1 somente se nenhum dos níveis de intensida- 
der, k=0,1,..., L- 1 estiverem faltando. 


3.11 Uma imagem com intensidades no intervalo [0, 1] tem 


a PDF (função densidade de probabilidade) p (r) mos- 
trada no diagrama a seguir. Deseja-se transformar os 
níveis de intensidade dessa imagem de forma que eles 
tenham o p (z) especificado mostrado na figura. Con- 
sidere quantidades contínuas e descubra a transforma- 
ção (em termos de r e z) que realizará isso. 


p,(r) p:(2) 


> r t > Z 


“3.12 Proponha um método para atualizar o histograma local 


para a utilização na técnica de realce local discutida na 
Seção 3.3.3. 
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3.13 Duas imagens, f(x, y) e g(x, y), têm histogramas h, e h. 


Dê as condições nas quais é possível obter os histogra- 
mas de 


(a) flx, y) + g(x, y) 
(b) fix, y) - g(x, y) 
(c) fix, y) x g(x, y) 
(d) f(x, y) + g(x, y) 


em termos de h, e h, Explique como obter o histogra- 
ma em cada caso. 


3.14 As imagens mostradas a seguir são bastante diferentes, 


mas seus histogramas são idênticos. Suponha que cada 
imagem seja borrada com um filtro de média 3 x 3. 


(a) Os histogramas das imagens borradas continua- 
riam iguais? Explique. 
(b) Se sua resposta for não, esboce os dois histogramas. 


3.15 A implementação de filtros espaciais lineares requer 


o procedimento de mover o centro de uma máscara 
pela imagem e, em cada posição, calcular a soma dos 
produtos dos coeficientes da máscara com os pixels 
correspondentes nessa posição (veja a Seção 3.4). Um 
filtro passa-baixa pode ser implementado definindo 
todos os coeficientes como 1, permitindo a utiliza- 
ção do algoritmo filtro retangular ou de média móvel, 
que consiste em atualizar apenas a parte do cálculo que 
muda de uma posição à seguinte. 


*(a) Formule um algoritmo como esse para um filtro 
n x n, mostrando a natureza dos cálculos envolvi- 
dos e a sequência de varredura utilizada para mover 
a máscara por toda a imagem. 


(b) A razão entre o número de cálculos realizados por 
uma implementação de força bruta e o número de 
cálculos realizados pelo algoritmo filtro retangu- 
lar é chamada de vantagem computacional. Obtenha 
a vantagem computacional neste caso plotando-a 
como uma função de n para n > 1. O fator de esca- 
la 1/n? é comum aos dois métodos, de forma que 
você não precisa levá-lo em consideração no cál- 
culo da vantagem computacional. Considere que a 
imagem tenha uma borda externa de zeros grande 
o suficiente para permitir que os efeitos de borda 
sejam ignorados em sua análise. 


3.16 *(a) Suponha você filtre uma imagem, f(x, y), com uma 


máscara de filtragem espacial, w(x, y), utilizando a 
convolução, como definido na Equação 3.4-2, na 
qual a máscara é menor que a imagem nas duas 
direções. Demonstre a importante propriedade de, 


se a soma dos coeficientes da máscara for zero, a 
soma de todos os elementos no arranjo resultante 
da convolução (imagem filtrada) também será zero 
(você pode ignorar imprecisões computacionais). 
Você também pode presumir que a borda da imagem 
foi preenchida com o número apropriado de zeros. 

(b) O resultado de (a) será o mesmo se a filtragem for 
implementada utilizando a correlação, como defi- 
nida na Equação 3.4-1? 


3.17 Discuta o efeito limitador da aplicação repetida de um 


filtro espacial passa-baixa 3 x 3 a uma imagem digital. 
Você pode ignorar os efeitos da borda. 


3.18 (a) Foi definido na Seção 3.5.2 que agrupamentos iso- 


lados de pixels escuros ou claros (em relação ao 
fundo), cuja área seja menor que metade da área de 
um filtro de mediana, são eliminados (forçados a se 
aproximar do valor da mediana dos vizinhos) pelo 
filtro. Considere um filtro de tamanho n x n, com n 
ímpar, e explique por que isso ocorre. 


(b) Considere uma imagem que contenha vários con- 
juntos de agrupamentos de pixels. Considere que 
todos os pontos em um agrupamento sejam mais 
claros ou mais escuros do que o fundo (mas não os 
dois simultaneamente no mesmo agrupamento), 
e que a área de cada agrupamento seja menor ou 
igual a n2/2. Em termos de n, em que condição um 
ou mais desses agrupamentos deixariam de ser iso- 
lados no sentido descrito na parte (a)? 


“3.19 (a) Desenvolva um procedimento para calcular a me- 


diana de uma vizinhança n x n. 


(b) Proponha uma técnica para atualizar o valor da 
mediana à medida que o centro da vizinhança se 
move de um pixel ao outro. 


3.20 (a) Em um aplicativo de reconhecimento de caracte- 


res, páginas de texto são reduzidas à forma binária 
utilizando uma função de transformação de limia- 
rização da forma mostrada na Figura 3.2(b). Isso 
é seguido de um procedimento que reduz os ca- 
racteres até que eles se tornem sequências de 1s 
binários sobre um fundo de Os. Em razão do ruí- 
do, os processos de binarização e redução resultam 
em sequências interrompidas de caracteres, com 
lacunas variando de 1 a 3 pixels. Uma forma de 
“reparar” as lacunas é aplicar uma máscara de mé- 
dia sobre a imagem binária para borrá-la e, assim, 
criar junções de pixels diferentes de zero entre 
as lacunas. Calcule o tamanho (ímpar) da menor 
máscara de média capaz de realizar essa tarefa. 


(b) Depois de preencher as lacunas, deseja-se limia- 
rizar a imagem para convertê-la de volta à forma 
binária. Para sua resposta em (a), qual é o valor 
mínimo do limiar necessário para fazer isso, sem 
provocar novas interrupções dos segmentos? 


“3.21 As três imagens mostradas aqui foram borradas uti- 
lizando máscaras de média quadradas de tamanhos 
n = 23, 25 e 45, respectivamente. As barras verticais 
na parte inferior esquerda de (a) e (c) estão borradas, 
mas há uma clara separação entre elas. Contudo, as 
barras na imagem (b) acabaram se mesclando, apesar 
do fato de a máscara que produziu essa imagem ser sig- 
nificativamente menor do que a máscara que produziu a 
imagem (c). Explique por que isso acontece. 


a 


ide À 


TE. TE 


(a) (b) 


(c) 


3.22 Considere uma aplicação como a mostrada na Figura 
3.34, na qual se deseja eliminar objetos menores do 
que os englobados por um quadrado de tamanho q x q 
pixels. Suponha que queiramos reduzir a intensidade 
média desses objetos a um décimo de seu valor médio 
original. Dessa forma, esses objetos se aproximarão da 
intensidade do plano de fundo e poderão ser elimina- 
dos por meio de uma limiarização. Calcule o tamanho 
(ímpar) do menor filtro de média que realizará a redu- 
ção desejada na intensidade média passando a máscara 
sobre a imagem apenas uma vez. 


3.23 Em uma dada aplicação, um filtro de média é aplicado 
a imagens de entrada para reduzir o ruído, e um filtro 
laplaciano é aplicado para realçar pequenos detalhes. O 
resultado seria o mesmo se a ordem dessas operações 
fosse invertida? 


*3.24 Mostre que o laplaciano definido na Equação 3.6-3 é 
isotrópico (invariante em rotação).Você precisará das 
equações a seguir relacionando as coordenadas para a 
rotação do eixo por um ângulo 8: 


x = x'cos0 — y'sen O 
y= x'sen 0+ y'cos0 
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onde (x, y) são as coordenadas não rotacionadas e 
(x’, y’) são as coordenadas rotacionadas. 


*3.25 Você viu na Figura 3.38 que o laplaciano com um -8 
no centro gera resultados mais nítidos (maior aguça- 
mento) do que o laplaciano com um -4 no centro. Ex- 
plique detalhadamente por que isso acontece. 


3.26 Com referência ao Exercício 3.25: 


(a) Utilizar uma máscara “similar ao laplaciano”, mas 
de tamanho maior, digamos, de tamanho 5 x 5 
com um -24 no centro, levaria a um resultado ain- 
da mais nítido? Explique em detalhes. 


(b) Como esse tipo de filtragem se comporta de acordo 
com o tamanho da máscara? 


3.27 Construa um filtro 3 x 3 para realizar a máscara de nitidez 
passando uma única vez por uma imagem. Considere 
que a imagem média seja obtida utilizando o filtro da 
Figura 3.32(a). 


“3.28 Demonstre que subtrair o laplaciano de uma imagem 
é equivalente a utilizar a máscara de nitidez. Utilize a 
definição para o laplaciano apresentada na Equação 
3.6-6. 


3.29 (a) Demonstre que a magnitude do gradiente dada na 
Equação 3.6-11 é uma operação isotrópica. (Veja o 
Exercício 3.24.) 

(b) Mostre que a propriedade isotrópica é em geral 
perdida se o gradiente for calculado utilizando a 
Equação 3.6-12. 


3.30 Uma câmera de TV do tipo CCD é utilizada para rea- 
lizar um estudo de longo prazo observando a mesma 
área 24 horas por dia, durante 30 dias. Imagens digitais 
são capturadas e transmitidas a uma central a cada 5 
minutos. A iluminação da cena varia entre a luz diur- 
na natural e iluminação artificial. Em momento algum 
a cena fica sem iluminação, de forma que é sempre 
possível obter uma imagem. Como a variação da ilumi- 
nação é tal que se mantém sempre na faixa linear de 
operação da câmera, decide-se não empregar nenhum 
mecanismo de compensação na própria câmera. Em 
vez disso, foi decidido utilizar técnicas de processamento 
de imagens para o pós-processamento, normalizando 
as imagens ao equivalente de uma iluminação cons- 
tante. Proponha um método para fazer isso. Você pode 
utilizar qualquer método que quiser, mas explique 
claramente todos as considerações feitas para chegar 
a seu objetivo. 


3.31 Demonstre que o ponto de cruzamento da Figura 
3.46(d) é dado por b = (a + c)/2. 


3.32 Utilize as definições de conjunto fuzzy da Seção 3.8.2 e 
as funções de pertinência básicas da Figura 3.46 para 
formar as funções de pertinência mostradas a seguir. 
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“3.33 Qual seria o efeito de aumentar o tamanho da vizinhança 
na metodologia de filtragem fuzzy discutida na Seção 
3.8.5? Explique em detalhes a sua resposta (você pode 
utilizar um exemplo para sustentar sua resposta). 


3.34 Elabore um sistema fuzzy, baseado em regras, para re- 
duzir os efeitos do ruído impulsivo em uma imagem 
ruidosa com valores de intensidade no intervalo [0, L- 1]. 
Como na Seção 3.8.5, utilize apenas as diferenças d, 
d, d, e d, em uma vizinhança 3 x 3 para simplificar o 


exercício. Seja z, a intensidade no centro da vizinhança, 
em qualquer ponto da imagem. Os valores de inten- 
sidade de saída correspondentes devem ser z’ =z, + v, 
onde v é a saída para seu sistema fuzzy. Em outras 
palavras, a saída de seu sistema fuzzy é um fator de cor- 
reção utilizado para reduzir o efeito de um ruído espi- 
culado que pode estar presente no centro da vizinhança 
3 x 3. Considere que os picos de ruído ocorrem com 
distâncias suficientes entre eles, de forma que você não 
precise se preocupar com a presença de múltiplos pi- 
cos de ruído na mesma vizinhança. Os picos podem 
ser escuros ou claros. Utilize funções de pertinência 
triangulares. 


*(a) Elabore uma abordagem fuzzy para esse problema. 
*(b) Especifique as regras SE-ENTÃO e SENÃO. 
(c) Especifique graficamente as funções de pertinên- 
cia, como na Figura 3.57. 
(d) Mostre uma representação gráfica do conjunto de 
regras, como na Figura 3.58. 


(e) Esboce um diagrama resumindo seu sistema fuzzy, 
similar ao da Figura 3.52. 


4 Filtragem no domínio da 
frequência 


minimizar ondas ou oscilações de determinadas frequências. 


Capítulo 


Frequência: o número de vezes que uma função periódica repete a mesma 
sequência de valores durante uma variação unitária da variável independente. 
Websters New Collegiate Dictionary 


Apresentação 


Apesar de termos dedicado significativa atenção, no capítulo anterior, à filtragem espacial, um conhecimen- 
to aprofundado dessa área é impossível sem a compreensão de como a transformada de Fourier e o domínio 
da frequência podem ser utilizados na filtragem de imagens. Pode-se desenvolver uma sólida compreensão 
desse tema sem precisar tornar-se um especialista em processamento de sinais. A chave é se concentrar nos 
fundamentos e na sua relevância para o processamento digital de imagens. A notação, normalmente uma 
fonte de dificuldades para os iniciantes, é significativamente esclarecida neste capítulo, e mostra a relação 
entre as características da imagem e as ferramentas matemáticas utilizadas para representá-las. Este capítu- 
lo se ocupa especialmente de formar as bases para a compreensão da transformada de Fourier e como ela 
é utilizada na filtragem básica de imagens. Mais adiante, nos capítulos 5, 8, 10 e 11, analisaremos outras 
aplicações da transformada de Fourier. Abriremos a discussão com uma breve explicação das origens da 
transformada de Fourier e sua influência sobre inúmeras áreas da matemática, ciência e engenharia. De- 
pois, veremos os princípios básicos da amostragem de funções e prosseguiremos passo a passo para derivar 
as transformadas discretas de Fourier uni e bidimensionais, que são os elementos fundamentais do proces- 
samento no domínio da frequência. Ao longo desta análise, também veremos vários aspectos importantes 
da amostragem, como o aliasing, cujo tratamento requer conhecimento do domínio da frequência, que, por 
esse motivo, é tratado neste capítulo. Em seguida, veremos uma formulação da filtragem no domínio da 
frequência e o desenvolvimento de seções análogas às técnicas de filtragem para aguçamento e suavização 
no domínio do espaço, discutidas no Capítulo 3. Concluiremos o capítulo discutindo questões relacionadas 
ao uso da transformada de Fourier no contexto do processamento de imagens. Como o conteúdo das seções 
4.2 a 4.4 apresenta informações básicas, leitores familiarizados com os conceitos do processamento de sinais 
unidimensionais, incluindo a transformada de Fourier, amostragem, aliasing e o teorema da convolução, 
podem prosseguir para a Seção 4.5, na qual daremos início à discussão a respeito da transformada de Fourier 
bidimensional e sua aplicação no processamento digital de imagens. 


4.1 Fundamentos madamente a meio caminho entre Paris e Dijon. A contri- 
o buição pela qual ele é mais lembrado foi esboçada em um 
4.1.1 Uma breve história da série e da transformada texto biográfico em 1807 e publicada em 1822 em seu li- 
de Fourier vro, La théorie analitique de la chaleur (A teoria analítica do 
O matemático francês Jean Baptiste Joseph Fourier calor). Esse livro foi traduzido para o inglês 55 anos mais 
nasceu em 1768 na pequena cidade de Auxerre, aproxi- tarde por Freeman (veja Freeman, 1878). Basicamente, a 
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contribuição de Fourier neste campo afirma que qualquer 
função periódica pode ser expressa como a soma de senos 
e/ou cossenos de diferentes frequências, cada uma multi- 
plicada por um coeficiente diferente (essa soma passou a 
ser conhecida como série de Fourier). Não importa o nível 
de complexidade da função; se ela for periódica e satisfizer 
algumas pequenas condições matemáticas, ela pode ser 
representada por essa soma. Podemos não pensar muito a 
respeito hoje em dia, mas, na época em que foi elaborado, 
o conceito de que funções complicadas poderiam ser re- 
presentadas como uma soma de simples senos e cossenos 
não era tão evidente (Figura 4.1), de forma que não é de 
surpreender que as ideias de Fourier tenham sido inicial- 
mente recebidas com ceticismo. 


Até funções não periódicas (mas cuja área sob a 
curva é finita) podem ser expressas como uma integral 
de senos e/ou cossenos multiplicada por uma função de 
ponderação. A formulação nesse caso é a transformada 
de Fourier, e sua utilidade é ainda maior do que a série de 
Fourier em muitas disciplinas teóricas e aplicadas. Ambas 
as representações têm em comum a importante carac- 
terística de que uma função, expressa em uma série ou 
em uma transformada de Fourier, pode ser totalmente 


NAVA 


NAA 
LP PDDMN 


Figura 4.1 A função mais abaixo é a soma das quatro funções aci- 
ma dela. A ideia de Fourier, desenvolvida em 1807, de que as funções 
periódicas poderiam ser representadas como uma soma ponderada de 
senos e cossenos foi recebida com ceticismo. 


reconstruída (recuperada) por meio de um processo in- 
verso, sem perda de informação. Essa é uma das caracte- 
rísticas mais importantes das representações, porque nos 
permite trabalhar no “domínio de Fourier” e, depois, re- 
tornar ao domínio original da função sem perder qualquer 
informação. Foi a utilidade da série e da transformada de 
Fourier para solucionar problemas práticos que acabou 
fazendo com que elas fossem amplamente estudadas e 
utilizadas como ferramentas fundamentais. 


Inicialmente, as ideias de Fourier foram aplicadas 
na área de difusão de calor, na qual elas permitiram a 
formulação de equações diferenciais que representavam 
o fluxo de calor, de modo que as soluções puderam ser 
obtidas pela primeira vez. Durante o século passado, e 
especialmente nos últimos 50 anos, indústrias e discipli- 
nas acadêmicas inteiras prosperaram com base nas ideias 
de Fourier. O advento dos computadores digitais e a “des- 
coberta” do algoritmo da transformada rápida de Fourier 
(FFT, de fast Fourier transform) no início da década de 
1960 (leia mais a respeito mais adiante) revolucionaram 
a área do processamento de sinais. Essas duas tecnologias 
básicas permitiram pela primeira vez o processamento 
prático de uma série de sinais de excepcional importân- 
cia, que variam dos monitores e digitalizadores médicos 
até as modernas comunicações eletrônicas. 


Abordaremos apenas funções (imagens) de dura- 
ção finita, de forma que nosso interesse se concentrará 
na transformada de Fourier. A próxima seção apresenta a 
transformada de Fourier e o domínio da frequência. Mos- 
traremos que as técnicas de Fourier proporcionam uma 
forma relevante e prática de estudar e implementar uma 
série de metodologias de processamento de imagens. Em 
alguns casos, essas metodologias são similares às que ana- 
lisamos no Capítulo 3. 


4.1.2 Sobre os exemplos deste capítulo 


Assim como no Capítulo 3, a maioria dos exemplos 
de filtragem de imagens deste capítulo se refere ao realce 
de imagens. Por exemplo, a suavização e o aguçamen- 
to são tradicionalmente associados ao realce de imagens, 
bem como às técnicas de manipulação de contraste. Por 
sua própria natureza, o realce é considerado interessante 
e de compreensão relativamente simples pelos iniciantes 
no processamento digital de imagens. Dessa forma, uti- 
lizar exemplos de realce de imagens neste capítulo não 
apenas nos poupa de um capítulo adicional como tam- 
bém, e o mais importante, constitui uma metodologia 
eficaz para apresentar aos iniciantes as técnicas de filtra- 
gem no domínio da frequência. Utilizaremos métodos de 


processamento de domínio da frequência em outras apli- 
cações nos capítulos 5, 8, 10 e 11. 


4.2 Conceitos preliminares 


Para simplificar o desenvolvimento das ideias apre- 
sentadas neste capítulo, faremos uma breve pausa para 
apresentar vários conceitos básicos que fundamentam o 
conteúdo das seções subsequentes. 


4.2.1 Números complexos 


Um número complexo, C, é definido como 


C=R+jl (4.2-1) 


onde R e Isao números reais, e j é um número imaginá- 
rio igual à raiz quadrada de —1, isto é, i= =e Aqui, R 
expressa a parte real do número complexo, e I é sua par- 
te imaginária. Os números reais são um subconjunto dos 
números complexos, no qual J = 0. O conjugado de um 
número complexo C, expresso por C”, é definido como 


C=R-jl (4.2-2) 

Os números complexos podem ser vistos geometri- 
camente como pontos em um plano (chamado de plano 
complexo), cuja abscissa é o eixo real (valores de R), e cuja 
ordenada é o eixo imaginário (valores de I). Isto é, o nú- 
mero complexo R + jI é o ponto (R, I) no sistema coorde- 
nado retangular do plano complexo. 


Algumas vezes, é útil representar os números com- 
plexos em coordenadas polares, 


C= ICI (cos 0 + j sen 0) (4.2-3) 
sendo que Icl= yR? +7? é o tamanho do vetor que se 
estende da origem do plano complexo ao ponto (R, 1), 
e 0 é o ângulo entre o vetor e o eixo real. Traçando um 
diagrama simples dos eixos real e complexo com o vetor 
no primeiro quadrante, será revelado que tan 0 = (I/R) 
ou 0 = arctan (I/R). A função arco-tangente (arctan) retorna 
ângulos no intervalo [—7/2, 7/2]. Contudo, como Ie R 
podem ser positivos e negativos de forma independente, 
precisamos ser capazes de obter angulos em todo o inter- 
valo [—7, 7]. Isso é realizado simplesmente rastreando o 
sinal de Ie de R ao calcular 9. Muitas linguagens de progra- 
mação fazem isso automaticamente por meio das funções 
chamadas de arco-tangente de quatro quadrantes. Por exem- 
plo, o Matlab inclui a função atan(Imag, Real) para 
essa finalidade. 


Utilizando a fórmula de Euler, 


e” = cos 0 + j sen 0 (4.2-4) 
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onde e = 2,71828..., temos a seguinte representação fa- 
miliar de números complexos em coordenadas polares, 


C= ICle” (4.2-5) 


considerando ICl e 0 definidos anteriormente. Por exem- 
plo, a representação polar do número complexo 1 + j2 é 
V5e””, onde 0 = 64,4° ou 1,1 radiano. As equações an- 
teriores também são aplicáveis a funções complexas. Por 
exemplo, uma função complexa, F(u), de uma variável u, 
pode ser expressa como a soma F(u) = R(u) + jI(u), onde 
R(u) e I(u) são as funções componentes real e imaginária. 
Como observamos anteriormente, o conjugado complexo é 


F*(u) = R(u) — jl(u), a magnitude é|F(u)| = Y Ru}? + T(u?, 
e o ângulo é 6(u) = arctan[I(u)/R(u)]. Retomaremos as 


funções complexas em várias ocasiões neste e no próxi- 
mo capítulo. 


42.2 Série de Fourier 


Como indicado na Seção 4.1.1, uma função f(t) 
de uma variável contínua t periódica com o período, T, 
pode ser expressa como a soma dos senos e cossenos 
multiplicada por coeficientes apropriados. Essa soma, 
conhecida como série de Fourier, tem a forma 


és am, 

f= dice (4.2-6) 
sendo = 

1 pre i 
= — 2 
=T nte dt 

para 

n=0, +l, 2, ... (4.2-7) 


os coeficientes. O fato de a Equação 4.2-6 ser uma ex- 
pansão de senos e cossenos resulta da fórmula de Euler, 
Equação 4.2-4. Retomaremos a série de Fourier mais 
adiante nesta seção. 


4.2.3 Impulsos e sua propriedade de peneiramento 

(sifting) 

Fundamental no estudo dos sistemas lineares e da 
transformada de Fourier é o conceito de um impulso* e 
sua propriedade de peneiramento (sifting). Um impulso 
unitário de uma variável contínua t localizada em t = 0, 
expresso por t = 0, é definido como: 


* Um impulso não é uma função no sentido comum. Um termo mais 
preciso seria função generalizada ou de distribuição. No entanto, é co- 
mum encontrar na literatura termos como função impulso, função 
delta e função delta de Dirac, apesar da nomenclatura incorreta. 
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oo set=0 
6(t)= (4.2-8a) 
0 set +0 
e também é restrito para satisfazer a identidade 
f ~ §(t)dt =1 (4.2-8b) 


Fisicamente, se interpretamos t como tempo, um im- 
pulso pode ser visto como um pico de amplitude infinita e 
duração zero, tendo área unitária. Um impulso tem a chama- 
da propriedade de peneiramento' no que se refere à integração, 


(4.2-9) 


considerando que f(t) é contínua em t = 0, que é uma 
condição normalmente satisfeita na prática. O peneira- 
mento simplesmente nos informa o valor da função f(t) 
na posição do impulso (isto é, a origem, t = 0, na equação 
anterior). Uma afirmação mais geral sobre a propriedade 
de peneiramento envolve um impulso localizado em um 
ponto arbitrário f,, expresso por ó(t — t). Nesse caso, a 
propriedade de peneiramento passa a ser 


f ” f(O8(t—t,)at = f(t,) (4.2-10) 


—00 


que resulta no valor da função na posição do impulso, t, 
Por exemplo, se f(t) = cos(t), utilizando o impulso 6(t — 7) 
na Equação 4.2-10, temos o resultado f(r) = cos(z) = — 1. 
O poder do conceito de peneiramento será demonstrado 
em breve. 


Seja x uma variável discreta. O impulso unitário dis- 
creto, 6(x), atende a todos os propósitos no contexto dos 
sistemas discretos como faz o impulso ó(t) ao trabalhar 
com variáveis contínuas. Ele é definido como 

1 x=0 


d(x) = 


(4.2-11a) 
0) x0 


Claramente, essa definição também satisfaz o equi- 
valente discreto da Equação 4.2-8(b): 


>> 6(x)=1 


X=—00 
A propriedade de peneiramento para variaveis dis- 
cretas tem a fórmula 


S5 f(x)6(x) = f(0) 


X=—00 


(4.2-11b) 


(4.2-12) 


ou, em termos mais gerais, utilizando um impulso discre- 
to localizado em x = x, 


* Sifting significa, literalmente, separar, ou separar passando atra- 
vés de uma peneira. 


D F(x)6(x — xo) = f(x) (4.2-13) 


x=—00 
Como antes, vimos que a propriedade de peneiramento 
simplesmente resulta no valor da função na posição do 
impulso. A Figura 4.2 mostra graficamente um impul- 
so unitário discreto. Diferentemente de sua contraparte 
contínua, o impulso discreto é uma função ordinária. 


De particular interesse, analisaremos mais adiante 
nesta seção um trem de impulsos, s, (1), definido como a 
soma de um número infinito de impulsos periódicos espa- 
cados de AT: 


Sar(b)= se ó(t— nAT) (4.2-14) 


n=—oo 
A Figura 4.3 mostra um trem de impulsos. Os im- 
pulsos podem ser continuos ou discretos. 


42.4 A transformada de Fourier de funções de uma 
variavel continua 


A transformada de Fourier de uma função continua 
f(t) de uma variável continua, t, expressa por Sff(1)]), é 
definida pela equação” 


SFO) = fi fear 


sendo que y é também uma variável continua. Como t é 
eliminado pela integração, S‘{f(t)} é uma função apenas 
de u. Denotamos explicitamente esse fato formulando 
a transformada de Fourier como S{f(t)} = F(u); isto é, a 
transformada de Fourier de f(t) pode ser expressa conve- 
nientemente como 


(4.2-15) 


5(x — xo) 


Figura 4.2 Um impulso unitário discreto posicionado em x = x, A 
variável x é discreta e 6 é O em qualquer ponto, exceto em x= x. 


** Em geral, é complicado descrever as condições para a existén- 
cia da transformada de Fourier (Champeney, 1987), mas uma 
condição suficiente para sua existência é que a integral do valor 
absoluto de f(t), ou a integral do quadrado de f(t), seja finita. Na 
prática, a condição de existência raramente é levada em conside- 
ração, exceto no caso de sinais idealizados, como senoides que 
se estendem eternamente. Lidamos com esses sinais utilizando 
funções impulso generalizadas. Nosso principal interesse é no par 
de transformadas discretas de Fourier, que, como veremos em 
breve, tem sua existência garantida para todas as funções finitas. 


sar(t) 


+++ —3AT —2AT —AT 0 AT 2AT 3AT.--- 


Figura 4.3 Um trem de impulsos. 


Fu) =f fie? at 


Inversamente, dada F(p), podemos obter nova- 
mente f(t) utilizando a transformada inversa de Fourier, 
f(t)=S {F(u)}, expressa como 


f= f Fedu 


(4.2-16) 


(4.2-17) 


na qual nos utilizamos do fato de que a variável yu é eli- 
minada por meio da integração na transformada inversa 
e expressa simplesmente como f(t), em vez da notação 
menos prática f= {Fw}. As equações 4.2-16 e 
4.2-17 consistem no chamado par de transformadas de Fou- 
rier. Elas indicam o importante fato mencionado na Se- 
ção 4.1 de que uma função pode ser recuperada a partir 
de sua transformada. 


Utilizando a fórmula de Euler, podemos expressar a 
Equação 4.2-16 como 


F(u) =  Hcos(2mut)- 
j sen(2mut)dt (4.2-18) 


Se f(t) é real, vemos que sua transformada em ge- 
ral é complexa. Observe que a transformada de Fourier 
é uma extensão de f(t) multiplicada por termos senoidais 


a ft) b F(u) 
A 
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cujas frequências são definidas pelos valores de yu (a va- 
riável t é eliminada pela integração, como mencionamos 
anteriormente). Como a única variável restante após a 
integração é a frequência, dizemos que o domínio da 
transformada de Fourier é o domínio da frequência. Dis- 
cutiremos o domínio da frequência e suas propriedades 
em mais detalhes mais adiante neste capítulo. Na nossa 
análise, f° pode representar qualquer variável contínua 
e as unidades da variável da frequência y dependem das 
unidades de t. Por exemplo, se t representar tempo em 
segundos, as unidades de y serão ciclos/s. ou Hertz (Hz). 
Se t representar a distância em metros, as unidades de yu 
serão ciclos/metro, e assim por diante. Em outras pala- 
vras, as unidades do domínio da frequência são ciclos por 
unidades da variável independente da função de entrada. 


= 
Exemplo 4.1 Obtenção da transformada de Fourier de 
uma função simples. 

A transformada de Fourier da função da Figura 4.4(a) 
resulta da Equação 4.2-16: 


oo : W12 A 
F(u)= f fle? dt = Ae ret dt 


—W/2 
= =A ene | = =A em — eiruw 
J2mu w2 j2nu 
= A pom = id 
j2ru 
o sen(muW) 
(muW) 


na qual utilizamos a identidade trigonométrica sen? = 
(e — e)/2;. Neste caso, os termos complexos da trans- 
formada de Fourier se combinam perfeitamente com uma 
função seno real. O resultado no último passo da expressão 
anterior é conhecido como função sinc: 


c lF(u)| 
4 


AW 


-W/2 0 W/2 


Figura 4.4 


for g 
<- —2/W E aa 


(a) Uma função simples; (b) sua transformada de Fourier; e (c) o espectro. Todas as funções se estendem ao infinito em ambas as direções. 


* Para fins de padronização com a terminologia utilizada nos dois capítulos anteriores, e para sua utilização posterior neste capítulo em 
relação a imagens, nos referimos ao dominio da variável tem geral como o domínio do espaço. 
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sinc(m) = a) 
(mm) 


(4.2-19) 
na qual sinc(0) = 1 e sinc(m) = O para qualquer outro valor 
inteiro de m. A Figura 4.4(b) mostra o gráfico de F(y/). 


Em geral, a transformada de Fourier contém termos 
complexos, e costuma-se, para fins de visualização, traba- 
lhar com a magnitude da transformada (um valor real), cha- 
mada de espectro de Fourier ou espectro de frequência: 


Irquol= aw eee 
(muW) 

A Figura 4.4(c) mostra um gráfico de IF(#)| como uma 
função da frequência. As propriedades-chave a serem obser- 
vadas sao que as posições dos zeros, tanto de F(u) quanto de 
IF(g)| são inversamente proporcionais à largura, W, da função 
“retangular” (box), que a altura dos “lóbulos” diminui em 
função da distância da origem e que a função se estende até 
o infinito, para valores de yu tanto positivos quanto nega- 
tivos. Como veremos mais adiante, essas propriedades são 
bastante úteis na interpretação do espectro de transforma- 
das de Fourier 2-D de imagens. 

E 


E 
Exemplo 4.2 Transformada de Fourier de um impulso e 
de um trem de impulsos. 


A transformada de Fourier de um impulso unitário lo- 
calizado na origem provém da Equação 4.2-16: 


F(u)= T 6(t)e Pr" dt 


= f e P™ S(t) dt 
= e /27H0 = e? 


=] 


sendo que o terceiro passo resulta da propriedade de pe- 
neiramento da Equação 4.2-9. Dessa forma, vemos que a 
transformada de Fourier de um impulso posicionado na 
origem do domínio do espaço é uma constante no domínio 
da frequência. De forma similar, a transformada de Fourier de 
um impulso posicionado em t = t é 


F= [O Slt tye P at 


—0o 


= e S(t —t dt 


—o0 


= e 27 Ho 


= cos(2rpt,)— j sen(2r pt, ) 


sendo que a terceira linha resulta da propriedade de pe- 
neiramento da Equação 4.2-10, e a última linha resulta da 
fórmula de Euler. Essas duas últimas linhas são representa- 
ções equivalentes de um círculo unitário centrado na origem 
do plano complexo. 


Na Seção 4.3, nos utilizaremos da transformada de 
Fourier de um trem de impulsos periódicos. A obtenção 
dessa transformada não é tão simples quanto acabamos de 
demonstrar para impulsos individuais. Contudo, entender 
como deduzir a transformada de um trem de impulsos é 
muito importante, de forma que tomaremos um tempo nes- 
sa dedução detalhada aqui. Começaremos observando que 
a única diferença na fórmula das equações 4.2-16 e 4.2-17 
é o sinal do exponencial. Dessa forma, se uma função f(t) 
tem a transformada de Fourier F(u), essa última função cal- 
culada em f, isto é, F(t), deve ter a transformada f(—p). Uti- 
lizando essa propriedade de simetria e considerando, como 
demonstramos anteriormente, que a transformada de Fou- 
rier de um impulso ó(t — t,) é e 1%, segue-se que a função 
e?! tem a transformada 6(— — t,). Supondo que —t, = a, 
segue-se que a transformada de e?#é ó(-u + a) = ó(u — a), 
onde o último passo é verdadeiro porque u = a é diferente 
de zero somente para p = a, que é o mesmo resultado para 
6(— + a) ou para (u — a), de modo que as duas formas são 
equivalentes. 

O trem de impulsos s(t) na Equação 4.2-14 é perió- 
dico com período AT, de forma que sabemos, com base na 
Seção 4.2.2, que ela pode ser expressa como uma série de 
Fourier: 


„27n 


oo j 
Sart) = ps GEAT 


n=—00 
sendo 
1 AT/2 a 
Cn = Tp arpar Oe T dt 


Com referência à Figura 4.3, vemos que a integral no 
intervalo [— 4['/2, AT/2] engloba apenas o impulso de s(t) 
localizado na origem. Dessa forma, a equação anterior se torna 


1 ATI = 
g == ôltje ^T dt 


—AT/2 


Assim, a expansão da série de Fourier se torna 


1 oo 2, 


Sag =n a ga 


n=—00 


Nosso objetivo é obter a transformada de Fourier dessa 
expressão. Como o somatório é um processo linear, a ob- 
tenção da transformada de Fourier de uma soma equivale 
a obter a soma das transformadas dos componentes indi- 
viduais. Esses componentes são exponenciais, e definimos 
anteriormente neste exemplo que 


Assim, S(1), a transformada de Fourier do trem de im- 
pulsos periódicos s (t), é 


-1 222 
~~ AT ERT 


Esse resultado fundamental nos informa que a trans- 
formada de Fourier de um trem de impulsos com período 
AT também é um trem de impulsos, cujo período é 1/AT. Essa 
proporcionalidade inversa entre os períodos de s ,,(t) e S(x) 
é análoga ao que vimos na Figura 4.4 em relação à função 
retangular e sua transformada. Tal propriedade exerce papel 
fundamental no restante deste capítulo. 

E 


42.5 Convolução 


Precisamos analisar mais um elemento fundamental 
antes de prosseguirmos. Apresentamos a ideia de convo- 
lução na Seção 3.4.2. Vimos que a convolução de duas 
funções envolve a rotação de uma função em 180º sobre 
sua origem e seu deslocamento passando pela outra. Em 
cada reposicionamento no processo de deslocamento, rea- 
lizamos um cálculo, que, no caso do Capítulo 3, foi uma 
soma de produtos. Na presente análise, estamos interessa- 
dos na convolução de duas funções contínuas, f(t) e A(t), 
de uma variável contínua, t, de forma que precisamos uti- 
lizar a integração em vez de um somatório. A convolução 
dessas duas funções, expressa, como antes, pelo operador 
x, é definida como 


fo h= f fiht-rdr (42:20) 


na qual o sinal de menos representa a rotação de 180° que 
acabamos de mencionar, t é o deslocamento necessário para 
reposicionar uma função passando pela outra, e 7 é uma 
variável local que é eliminada pela integração. Por enquan- 
to, consideramos que as funções se estendem de — oo a 00. 


Ilustramos o funcionamento básico de uma convo- 
lução na Seção 3.4.2 e faremos o mesmo mais adiante 
neste capítulo e no Capítulo 5. Por enquanto, nosso in- 
teresse é calcular a transformada de Fourier da Equação 
4.2-20. Comecemos com a Equação 4.2-15: 

Ai 


{fxn} = N [E semear 


= I f(t) fot - nye at 


dT 
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O termo entre colchetes é a transformada de Fourier 
de h(t — T) . Demonstramos mais adiante neste capítulo 
que S{h(t — 7)) = H(u)e 2, sendo H(z) a transformada 
de Fourier de h(t). Aplicando esse fato à equação ante- 
rior, temos 


S{ F(A} = S fir) Hue? adr 
a Res 


Lembrando da Seção 4.2.4, que nos referimos ao do- 
minio de t como o dominio do espaço e ao dominio de y 
como o domínio da frequência, a equação anterior nos 
informa que a transformada de Fourier da convolução de 
duas funções no domínio do espaço é igual ao produto, 
no domínio da frequência, das transformadas de Fourier 
das duas funções. Inversamente, se tivermos o produto das 
duas transformadas, podemos obter a convolução no do- 
mínio do espaço calculando a transformada inversa de 
Fourier. Em outras palavras, f(t) * h(t) e H(u)F(u) são um 
par de transformadas de Fourier. Esse resultado represen- 
ta metade do teorema da convolução e é expresso como 


fO x h(t) & Hu) Pg) (4.2-21) 


A seta dupla é utilizada para indicar que a expressão à 
direita é obtida pela transformada de Fourier da expressão 
à esquerda, ao passo que a expressão à esquerda é obtida 
pela transformada inversa de Fourier da expressão à direita. 


Seguindo uma lógica similar, poderia resultar na 
outra metade do teorema da convolução: 


flt)h(t) + Hu) * Fl) (4.2-22) 


que afirma que a convolução no domínio da frequência é 
análoga à multiplicação no domínio do espaço, e as duas 
são relacionadas pelas transformadas direta e inversa de 
Fourier, respectivamente. Como veremos mais adiante 
neste capítulo, o teorema da convolução constitui a base 
para a filtragem do domínio da frequência. 


4.3 Amostragem e a transformada de 
Fourier de funções amostradas 
Nesta seção, utilizaremos os conceitos da Seção 4.2 
para formular as bases para expressar matematicamente 


a amostragem. Isso nos levará, partindo de princípios bá- 
sicos, à transformada de Fourier de funções amostradas. 


* O mesmo resultado seria obtido se a ordem de f(t) e h(t) fosse 
invertida. Então, a convolução é comutativa. 
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4.3.1 Amostragem 


As funções contínuas devem ser convertidas em 
uma sequência de valores discretos antes de poderem ser 
processadas em um computador. Isso é realizado utilizan- 
do a amostragem e a quantização, como apresentamos 
brevemente na Seção 2.4. Na análise seguinte, examina- 
remos a amostragem em mais detalhes. 


Com referência à Figura 4.5, considere uma função 
continua, f(t), que desejamos obter amostras em intervalos 
uniformes de (AT) da variável independente t. Considera- 
mos que a função se estenda de —oo a oo em relação a t. 
Uma forma de modelar a amostragem é multiplicar f(t) por 
uma função de amostragem equivalente a um trem de impul- 
sos espaçados de AT, como vimos na Seção 4.2.3." Isto é, 


a fO 
A 
>t 
0 
b sar(t) 
A 


Ao, 


“=2AT -ATO AT 2AT = 
fMsarO 


S 
À É 
1 
So oy” ae e s 
lira, 
**—2AT ATO AT 2AT °°" 
d fe = FAT) 


e eae 
fb = e = 74 (E = Se as sg 
--2-1 0 1 2 += 


Figura 4.5 (a) Função contínua. (b) Trem de impulsos utilizado para 
modelar o processo de amostragem. (c) Função amostrada formada 
pelo produto de (a) e (b). (d) Amostras obtidas pela integração e pelo 
uso da propriedade de peneiramento do impulso. (A linha tracejada 
em (c) foi incluída para referência. Ela não faz parte dos dados.) 


* Obter amostras em intervalos de AT implica uma taxa de amostra- 
gem equivalente a 1/AT. Se as unidades de AT forem segundos, 
então a taxa de amostragem é em amostras/s. Se as unidades de 
AT forem metros, então a taxa de amostragem é em amostras/m, 
e assim por diante. 


6(t—nAT) (4.3-1) 


FO)= fist = Sos f(t) 
onde f(t) expressa a função amostrada. Cada componen- 
te dessa somatória é um impulso ponderado pelo valor de 
f(t) na posição do impulso, como mostra a Figura 4.5(c). 
O valor de cada amostra é, portanto, determinado pela 
“força” do impulso ponderado que obtemos por integra- 
ção. Isto é, o valor, f de uma amostra arbitrária na sequên- 
cia é dado por 


6(t —kAT)d 


f= ff 


e ENT (4.3-2) 


onde utilizamos a propriedade de peneiramento de ó da 
Equação 4.2-10. A Equação 4.3-2 se aplica a qualquer 
valor inteiro k = ..., —2, —1, 0, 1, 2,.... A Figura 4.5(d) 
mostra o resultado que consiste em amostras igualmente 
espaçadas da função original. 


43.2 A transformada de Fourier de funções 
amostradas 


Seja F(u) a transformada de Fourier de uma fun- 
ção contínua f(t). Como vimos na seção anterior, a função 
amostrada correspondente, f(t), é o produto de f(t) com 
um trem de impulsos. Sabemos, com base no teorema da 
convolução apresentado na Seção 4.2.5, que a transfor- 
mada de Fourier do produto de duas funções no domínio 
do espaço é a convolução das transformadas das duas 
funções no domínio da frequência. Dessa forma, a trans- 
formada de Fourier, F(u), da função amostrada f(t) é 


Hu) = Stf()} 
= HH(Dsar(D) (4.3-3) 
= F(u)* S(t) 
sendo que, do Exemplo 4.2, 
1 
= Ar 2 E] (4.3-4) 


é a transformada de Fourier do trem de impulsos s,,(t). 
Obtemos a convolução de F(u) e S(y) diretamente da de- 
finição da Equação 4.2-20: 


F(u)= 


= F(7)S(u— 7) dt 


F(uy* S(t) 


(4.3-5) 


onde o passo final resulta da propriedade de peneiramen- 
to do impulso, como determinado na Equação 4.2-10. 


O somatório da última linha da Equação 4.3-5 
mostra que a transformada de Fourier F(j:) da função 
amostrada f(t) é uma sequência infinita e periódica de 
cópias de F(u), que é a transformada da função original 
contínua. O intervalo entre as cópias é determinado pelo 
valor de 1/AT. Observe que, apesar de f(t) ser uma fun- 
ção amostrada, sua transformada F(u) é contínua, pois 
consiste de cópias de F(u), que é uma função continua. 


A Figura 4.6 apresenta um resumo gráfico dos re- 
sultados anteriormente apresentados.” A Figura 4.6(a) é 
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um esboço da transformada de Fourier, F(u), de uma fun- 
ção f(t), e a Figura 4.6(b) mostra a transformada, F(p), 
da função amostrada. Como mencionamos na seção ante- 
rior, o valor 1/AT é a taxa de amostragem utilizada para 
gerar a função amostrada. Dessa forma, na Figura 4.6(b) 
a taxa de amostragem foi alta o suficiente para propor- 
cionar separação suficiente entre os períodos e, portanto, 
preservar a integridade de F(u). Na Figura 4.6(c), a taxa 
de amostragem foi suficiente apenas para preservar a F(x), 
mas, na Figura 4.6(d), a taxa de amostragem estava abaixo 
do mínimo necessário para manter cópias distintas de F(x) 
e, portanto, não pôde preservar a transformada original. A 
Figura 4.6(b) é o resultado da sobreamostragem de um sinal 
(over-sampling), ao passo que as figuras 4.6(c) e (d) são 
os resultados da amostragem crítica (critically-sampling) e da 
subamostragem (under-sampling) do sinal, respectivamente. 
Esses conceitos formam as bases para o conteúdo a ser 
desenvolvido na próxima seção. 


a F(p) 
4 
0 = 
b F (gu) 
A 
i =u 
—2/AT —1/AT 0 1/AT 2/AT 
Fi) 
t H t H >u 
—2/AT —1/AT 0 1/AT 2/AT 
d F(u) 
=u 
-3/AT —2/AT —1J/AT 0 1/AT 2/AT  3/JAT 


Figura 4.6 


(a) Transformada de Fourier de uma função de banda limitada. (b) a (d) Transformadas da função amostrada correspondente sob as 


condições de sobreamostragem, amostragem crítica e subamostragem, respectivamente. 


* Para fins de clareza das ilustrações, dos esboços das transformadas de Fourier na Figura 4.6 e de outras figuras similares neste capítulo, 
ignore o fato de que as transformadas normalmente são funções complexas. 
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43.3 0 teorema da amostragem 


Apresentamos intuitivamente a ideia da amostra- 
gem na Seção 2.4. Agora, analisaremos formalmente o 
processo de amostragem e definiremos as condições nas 
quais uma função contínua pode ser unicamente recupera- 
da a partir do conjunto de suas amostras. 


Uma função f(t) cuja transformada de Fourier é zero 
para valores de frequências fora de um intervalo finito 
(banda) [~Ha Haa] em relação à origem é chamada de 
função de banda limitada. A Figura 4.7(a), que é uma sec- 
ção ampliada da Figura 4.6(a), representa uma função 
como essa. De forma similar, a Figura 4.7(b) apresenta 
uma visão mais detalhada da transformada de uma fun- 
ção criticamente amostrada, ilustrada na Figura 4.6(c). 
Um valor mais baixo de 1/AT faria com que os períodos 
em F(u) se mesclassem; um valor mais alto proporciona- 
ria uma separação clara entre os períodos. 


É possível recuperar f(t) a partir de sua versão 
amostrada se pudermos isolar uma cópia de F(x) a partir 
da sequência periódica de cópias dessa função contida em 
F(u), a transformada da função amostrada f(t). Lembre, 
com base na discussão da seção anterior, que F(u) é uma 
função periódica e contínua, com período 1/AT. Dessa for- 
ma, só precisamos de um período completo para carac- 
terizar toda a transformada. Isso significa que podemos 
recuperar f(t) com base nesse único período, utilizando a 
transformada inversa de Fourier. 


É possível extrair a partir de um único período igual 
a F(u) se a separação entre as cópias for suficiente (veja a 
Figura 4.6). Em termos da Figura 4.7(b), a separação su- 
ficiente é garantida se 1/2AT> u ou 


l 


Es (4.3-6) 
AT 


2u máx 


Essa equação indica que uma função de banda limi- 
tada, contínua, pode ser totalmente recuperada a partir de 
um conjunto de suas amostras se estas forem adquiridas 
em uma taxa maior que o dobro da frequência mais alta 
contida na função*. Esse resultado é conhecido como teo- 
rema da amostragem”. Podemos dizer, com base nesse 


* Uma taxa de amostragem equivalente a exatamente o dobro da 
frequência mais alta é chamada de taxa de Nyquist. 


“ O teorema da amostragem é uma teoria fundamental do proces- 
samento de sinais digitais. Ele foi formulado pela primeira vez 
em 1928 por Harry Nyquist, um cientista e engenheiro da Bell 
Laboratories. Claude E. Shannon, também da Bell Labs, compro- 
vou formalmente o teorema em 1949. O interesse renovado no 
teorema da amostragem no fim dos anos 1940 foi motivado pelo 
advento dos primeiros sistemas de computação digital e comuni- 
cações modernas, que criaram uma necessidade de métodos que 
lidassem com dados digitais (de amostragem). 


a F(u) 
4 
~ Hmáx 0 Hmáx H 
b F(u) 
A 
= máx Hmáx 
t >u 
= F L dq 
2AT 2AT AT 
Figura 4.7 (a) Transformada de uma função de banda limitada. (b) 


Transformada resultante da amostragem crítica da mesma função. 


resultado, que nenhuma informação é perdida se uma 
função de banda limitada, contínua, for representada por 
amostras obtidas em uma taxa maior que o dobro da fre- 
quência mais alta da função. Inversamente, podemos di- 
zer que a frequência máxima que pode ser “capturada” 
pela amostragem de um sinal em uma taxa 1/4Té | = 
1/2AT. A amostragem na taxa de Nyquist algumas vezes 
é suficiente para a recuperação perfeita da função, mas há 
casos nos quais isso leva a dificuldades, como ilustraremos 
mais adiante no Exemplo 4.3. Dessa forma, o teorema da 
amostragem especifica que a amostragem deve exceder a 
taxa de Nyquist. 


Para ver como é possível, em princípio, recuperar 
F(u) a partir de F(u), veja a Figura 4.8, que mostra a 
transformada de Fourier de uma função amostrada em 
uma taxa ligeiramente maior que a taxa de Nyquist. A 
função na Figura 4.8(b) é definida pela equação” 


AT — Hnáx <p < Hinge 


H(u)= a 
0 caso contrário 


(4.3-7) 

Quando multiplicada pela sequência periódica da 
Figura 4.8(a), essa função isola o período centrado na ori- 
gem. Então, como mostra a Figura 4.8(c), obtemos F(u) 
multiplicando F(u) por H(p): 


F(u) = H(u)F (us) 


Uma vez que temos F(u), podemos recuperar f(t) 
utilizando a transformada inversa de Fourier: 


(4.3-8) 


*™ O valor AT na Equação 4.3-7 anula o 1/AT na Equação 4.3-5. 
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Figura 4.8 Extração de um período da transformada de uma função de banda limitada utilizando um filtro passa-baixa ideal. 


HO = fo Fue? an (4.3-9) 


As equações 4.3-7 a 4.3-9 comprovam que, teorica- 
mente, é possível recuperar uma função de banda limitada 
a partir de amostras da função obtida em uma taxa maior 
que o dobro da frequência mais alta da função. Como ve- 
remos na próxima seção, o requisito de que f(t) deve ser 
de banda limitada em geral implica que f(t) deve se esten- 
der de —s a œ, uma condição que não pode ser satisfeita 
na prática. Como veremos em breve, limitar a duração de 
uma função impossibilita a recuperação perfeita da fun- 
ção, exceto em alguns casos especiais. 


A função H(p) é chamada de filtro passa-baixa por- 
que passa frequências na extremidade inferior do inter- 
valo de frequência, mas elimina (por meio do filtro) todas 
as frequências mais altas. Ela também é um filtro passa- 
-baixa ideal em razão de suas transições infinitamente rá- 
pidas de amplitude (entre 0 e AT na posição —u (eo 
inverso em | . ), uma característica que não pode ser obti- 
da com componentes eletrônicos físicos. Podemos simular 
filtros ideais em software, mas, mesmo assim, teremos limi- 
tações, como explicaremos na Seção 4.7.2. Teremos muito 
mais a dizer sobre a filtragem mais adiante neste mesmo 
capítulo. Por serem intrumentos na recuperação (recons- 
trução) da função original a partir de suas amostras, os 
filtros utilizados para a finalidade que acabamos de dis- 
cutir são chamados de filtros de reconstrução. 


4.3.4 Aliasing 


Uma pergunta lógica neste ponto é: o que acontece 
se uma função de banda limitada é amostrada em uma 
taxa menor que o dobro de sua frequência mais alta? 
Isso corresponde ao caso da subamostragem que discu- 
timos na seção anterior. A Figura 4.9(a) é a mesma que 
a Figura 4.6(d), que ilustra essa condição. O efeito final 
da redução da taxa de amostragem abaixo da taxa de Ny- 
quist é que os períodos agora se sobrepõem, e passa a ser 
impossível isolar um único período da transformada, inde- 
pendentemente do filtro utilizado. Por exemplo, utilizar o 
filtro passa-baixa ideal na Figura 4.9(b) resultaria em uma 
transformada corrompida pelas frequências dos períodos 
adjacentes, com mostra a Figura 4.9(c). A transformada 
inversa, então, geraria uma função corrompida de t. Esse 
efeito, provocado pela subamostragem de uma função, 
é conhecido como aliasing de frequência ou simplesmen- 
te aliasing. Em outras palavras, o aliasing é um processo 
no qual componentes de alta frequência de uma função 
contínua se “mascaram” como frequências mais baixas 
na função amostrada. Isso está de acordo com a utilização 
comum do termo alias, que significa “falsa identidade”. 


Infelizmente, exceto em alguns casos especiais men- 
cionados a seguir, o aliasing está sempre presente em 
sinais amostrados porque, mesmo se a função amostrada 
original for de banda limitada, componentes de frequência 
infinita são introduzidos no momento em que limitamos 
a duração da função, o que sempre precisamos fazer na 
prática. Por exemplo, suponha que queiramos limitar a 
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duração de uma função de banda limitada f(t) a um in- 
tervalo, digamos, de [0, T]. Podemos fazer isso multipli- 
cando f(t) pela função 
h(t)= f =e = (4.3-10) 
0 caso contrario 
Essa função tem o mesmo formato básico que a Fi- 
gura 4.4(a), cuja transformada, H(v), tem componentes 
de frequência que se estendem ao infinito, como mostra 
a Figura 4.4(b). Com base no teorema da convolução, 
sabemos que a transformada do produto de h(t)f(t) é a 
convolução das transformadas das funções. Mesmo que 
a transformada de f(t) seja de banda limitada, a convolu- 
ção com H(y), que envolve deslocar uma função sobre a 
outra, produzirá um resultado com componentes de fre- 
quência se estendendo ao infinito. Dessa forma, nenhuma 
função de duração finita pode ser de banda limitada. In- 
versamente, uma função de banda limitada deve se es- 
tender de —% a oo. 


Concluímos que o aliasing é um resultado inevitável 
ao trabalharmos com sinais amostrados de tamanho finito 


pelas razões explicadas no parágrafo anterior. Na prática, 
os efeitos do aliasing podem ser reduzidos pela suavização 
da função de entrada para atenuar suas frequências mais 
altas (por exemplo, por meio do borramento no caso de 
uma imagem). Esse processo, chamado de antialiasing, pre- 
cisa ser realizado antes da amostragem da função porque o 
aliasing é um problema de amostragem que não pode ser 
desfeito utilizando técnicas computacionais. 


Exemplo 4.3 Aliasing. 


A Figura 4.10 mostra um exemplo clássico de alia- 
sing. Uma onda senoidal pura se estendendo infinitamente 
em ambas as direções tem uma frequência única de modo 
que, obviamente, é uma função de banda limitada. Supo- 
nha que a onda senoidal da figura (ignore os pontos por 
enquanto) tenha a equação sen(zt) e que o eixo horizontal 
corresponda ao tempo, t, em segundos. A função cruza o 
eixoemt=... —-1,0,1,2,3.... 

O período, P, de sen(zt) é 2 s, e sua frequência é 1/P, 
ou 1/2 ciclo/s.” De acordo com o teorema da amostragem, 
podemos recuperar esse sinal a partir de um conjunto de 
suas amostras se a taxa de amostragem, 1/AT, for maior que 


a F(p) 
i i i Y A N | | | -u 
-3/AT —2/AT -1/AT 0 1/AT 2/AT  3/AT 
b H(p) 
AT 
=p 
0 I 
l 
I A 
c FD = HCW F(u) 
l 
I 
l 
l 
I 
l 
| E 
— Umáx 0 Umax 


Figura 4.9 (a) Transformada de Fourier de uma função subamostrada e de banda limitada. (A interferência dos períodos adjacentes é mostrada 
tracejada na figura.) (b) O mesmo filtro passa-baixa ideal utilizado na Figura 4.8(b). (c) O produto de (a) e (b). A interferência proveniente dos períodos 
adjacentes resulta em aliasing, que impede a recuperação perfeita da função original, contínua e de banda limitada. Compare com a Figura 4.8. 


* Um importante caso especial é quando uma função que se estende de — a œ é de banda limitada e periódica. Nesse caso, a função pode 
ser truncada e ainda será de banda limitada, contanto que o truncamento inclua exatamente um número inteiro de períodos. Um único 
período truncado (e, dessa forma, a função) pode ser representado por um conjunto de amostras discretas satisfazendo o teorema da 


amostragem retiradas do intervalo truncado. 


“* Lembre-se que 1 ciclo/s é definido como 1 Hz. 


o dobro da mais alta frequência do sinal. Isso significa que uma 
taxa de amostragem maior que 1 amostra/s [2 x (1/2) = 1] ou 
AT< 1 é necessária para recuperar o sinal. Observe que a 
amostragem desse sinal exatamente no dobro da frequência 
(1 amostra/s), com amostras de t=... —1,0,1,2,3.., 
resulta em ... sen(—7), sen(0), sen(7), sen(27),..., que são 
todos 0. Isso explica a razão pela qual o teorema da amos- 
tragem requer uma taxa de amostragem maior que o dobro 
da frequência mais alta, como mencionado anteriormente. 


Os pontos pretos da Figura 4.10 são amostras retiradas 
uniformemente em uma taxa menor do que 1 amostra/s (na 
verdade, o intervalo entre as amostras excede 2 s, o que resul- 
ta em uma taxa de amostragem menor que 1/2 amostra/s). 
O sinal amostrado se parece com uma onda senoidal, mas 
sua frequência é de cerca de um décimo da frequência do si- 
nal original. Esse sinal amostrado, que tem uma frequência 
muito menor do que qualquer elemento presente na função 
contínua original, é um exemplo de aliasing. Dadas apenas as 
amostras na Figura 4.10, o problema do aliasing em um caso 
como esse é que não teríamos como saber que essas amos- 
tras não são uma representação real da função original. Como 
veremos mais adiante neste capítulo, o aliasing em imagens 
pode produzir, similarmente, resultados de forma enganosa. 

= 


43.5 Reconstrução (recuperação) da função a 
partir dos dados amostrados 


Nesta seção, mostraremos que a reconstrução de 
uma função a partir de um conjunto de suas amostras 
corresponde, na prática, à interpolação entre as amostras. 
Até o simples ato de visualizar uma imagem requer a re- 
construção da imagem a partir de suas amostras pelo sis- 
tema de exibição. Dessa forma, é importante compreender 
os fundamentos da reconstrução dos dados amostrados. A 
convolução é fundamental para desenvolver essa com- 
preensão, mostrando mais uma vez a importância deste 
conceito. 


‘ 


Figura 4.10 | Ilustração do aliasing. A função subamostrada (pontos 
pretos) se parece com uma onda senoidal, com uma frequência muito 
menor que a frequência do sinal contínuo. O período da onda senoidal 
é 2 s, de forma que os cruzamentos por zero do eixo horizontal ocor- 
rem a cada segundo. AT é o intervalo entre as amostras. 
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A análise da Figura 4.8 e da Equação 4.3-8 esboça o 
procedimento para a perfeita recuperação de uma função 
de banda limitada a partir de suas amostras utilizando 
métodos de domínio da frequência. Por meio do teorema 
da convolução podemos obter o resultado equivalente no 
domínio do espaço. Da Equação 4.3-8, F(u) = H(p)F(u), 
segue-se, enta,o que 


(4.3-11) 


sendo que o último passo resulta do teorema da convolu- 
ção da Equação 4.2-21. É possível demonstrar (Exercício 
4.6) que substituir a Equação 4.3-1 por f(t) na Equação 
4.3-11 e depois utilizar a Equação 4.2-20 leva à seguinte 
expressão no dominio do espaço para f(t): 


f= D f(nAT)sine[(t — nAT)/ AT] 


n=-00 


(4.3-12) 


na qual a função sinc é definida na Equação 4.2-19. Esse 
resultado não surpreende porque a transformada in- 
versa de Fourier do filtro retangular (box filter), H(y), é 
uma função sinc (veja o Exemplo 4.1). A Equação 4.3-12 
mostra que a função perfeitamente reconstruída é uma 
soma infinita de funções sinc ponderadas pelos valores da 
amostra e tem a importante propriedade na qual a função 
reconstruída é igual aos valores de amostra nos incre- 
mentos múltiplos inteiros de AT. Em outras palavras, 
para qualquer t = k AT, onde k é um inteiro, f(t) é igual 
à k-ésima amostra f(KAT). Isso resulta da Equação 4.3-12 
porque sinc(0) = 1 e sinc(m) = O para qualquer outro va- 
lor inteiro de m. Entre os pontos de amostra, valores de 
f(t) são interpolações formadas pela soma das funções sinc. 


A Equação 4.3-12 requer um número infinito de 
termos para as interpolações entre amostras. Na práti- 
ca, isso significa que precisamos procurar aproximações 
que sejam interpolações finitas entre as amostras. Como 
discutimos na Seção 2.4.4, os principais métodos de in- 
terpolação utilizados no processamento de imagens são a 
interpolação pelo vizinho mais próximo, bilinear e bicú- 
bica. Veremos os efeitos da interpolação sobre as imagens 
na Seção 4.5.4. 


4.4 Atransformada discreta de Fourier 
(DFT) de uma variável 


Um dos principais objetivos deste capítulo é a dedu- 
ção da transformada discreta de Fourier (DFT, de discrete Fou- 
rier transform) começando dos princípios básicos. O con- 
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teúdo até este ponto pode ser visto como os fundamentos 
desses princípios básicos, de forma que agora já temos as 
ferramentas necessárias para deduzir a DFT. 


441 Obtenção da DFT a partir da transformada 
contínua de uma função amostrada 


Como discutimos na Seção 4.3.2, a transformada de 
Fourier de uma função amostrada de banda limitada se 
estendendo de —o a o é uma função periódica, continua, 
que também se estende de —co a co, Na prática, traba- 
lhamos com um número finito de amostras, e o objetivo 
desta seção é deduzir a DFT correspondente a esses con- 
juntos de amostras. 


A Equação 4.3-5 nos dá a transformada, F(u), dos 
dados amostrados em termos da transformada da função 
original, mas não nos dá uma expressão para F(u) em 
termos da função amostrada f(t) em si. Calculamos essa 
expressão diretamente da definição da transformada de 
Fourier na Equação 4.2-16: 


Fu)= S Fedt (4.4-1) 


Substituindo a Equação 4.3-1 por f(t), obtemos 


Fu)= f Foeta 


T 3 f(t)d(t —nAT)e Pr dt 


o0 


= “Fest —nAT)e "dt 


n=-—00 


oo 
) } —j2nunAT 
nº 


n=-00 


(4.4-2) 


onde o último passo resulta da Equação 4.3-2. Apesar de 
f, ser uma função discreta, sua transformada de Fourier 
F(u) é contínua e infinitamente periódica com período 
1/AT, como já sabemos, com base na Equação 4.3-5. Des- 
sa forma, para caracterizar só precisamos de um período, 
e a amostragem de um período é a base para a DFT. 


Suponha que queiramos obter M amostras igual- 
mente espaçadas de F(x) retiradas ao longo do período 
u = 0 a p= 1/AT. Isso é feito realizando a amostragem 
nas seguintes frequências: 


m 


H= MAT 


m= 0,1,2,...,.M—1 (4.4-3) 


Substituindo esse resultado por u na Equação 4.4-2, 
com F expressando o resultado, temos 


MA 
= À ) —j2nmniM 
F — fae 


n=0 


m=0,1,2,...,M—1 (4.4-4) 


Essa expressão é a transformada discreta de Fou- 
rier que estamos buscando.” Dado um conjunto {f} que 
consista em M amostras de f(t), a Equação 4.4-4 resulta 
em um conjunto de amostras (F |) de M valores discretos 
complexos que correspondam à transformada discreta 
de Fourier do conjunto de amostras de entrada. Inver- 
samente, dado {F ), podemos recuperar o conjunto de 
amostras {f } utilizando a transformada discreta de Fourier 
inversa (IDFT, de inverse discrete Fourier transform) 


M 


1 =] 
D j2amnlM 
A ~ M Fe 
m=0 


n=0,1,2,...,.M—1 (4.4-5) 


Não é difícil demonstrar (Exercício 4.8) que, subs- 
tituindo a Equação 4.4-5 pelo termo f da Equação 4.4-4 
tem-se a identidade F, = F De forma similar, substituir 
F da Equação 4.4-5 pela Equação 4.4-4 resulta em f = f. 
Isso implica que as equações 4.4-4 e 4.4-5 constituem um 
par de transformadas discretas de Fourier. Além disso, essas 
identidades indicam que as transformadas direta e inversa 
de Fourier existem para qualquer conjunto de amostras 
cujos valores são finitos. Observe que nenhuma expressão 
depende explicitamente do intervalo de amostragem AT 
nem dos intervalos de frequência da Equação 4.4-3. Dessa 
forma, o par DFT é aplicável a qualquer conjunto finito de 
amostras discretas colhidas uniformemente. 


Utilizamos m e n na dedução anterior para expres- 
sar variáveis discretas por ser o mais comum para deriva- 
ções. No entanto, é mais natural, especialmente em duas 
dimensões, utilizar a notação x e y para variáveis de coor- 
denadas de imagem e u e v para variáveis de frequência, 
onde se entende que elas sejam inteiras.” Então, as equa- 
ções 4.4-4 e 4.4-5 se tornam 


Note, na Figura 4.6(b), que o intervalo [0, 1/AT] cobre dois 
meios períodos consecutivos da transformada. Isso significa que 
os dados em F, requerem uma nova ordenação para obter amos- 
tras que sejam classificadas da mais baixa à mais alta frequência 
de um período. Este é o preço pago pela praticidade de notação, 
na qual colhemos as amostras em m = 0, 1, ..., M — 1, em vez de 
utilizar amostras em ambos os lados da origem, o que demanda- 
ria o uso de notação negativa. O procedimento para ordenar os 
dados da transformada é discutido na Seção 4.6.3. 


Tomamos o cuidado de utilizar t para variáveis espaciais contínuas e 
p para as variáveis de frequência contínuas correspondentes. Des- 
te ponto em diante, utilizaremos x e u para expressar variáveis 
discretas unidimensionais no domínio do espaço e da frequência, 
respectivamente. Ao lidar com funções bidimensionais, utilizare- 
mos (t, z) e (u, v) para expressar variáveis contínuas no domínio do 
espaço e da frequência, respectivamente. De forma similar, utiliza- 
remos (x, y) e (u, v) para expressar seus equivalentes discretos. 


MA . 
f(u) = ern 
x=0 
u = 0,1,2,.., M- 1 (4.4-6) 
e 
l S j2muxiM 
x)=— u el TUX 
P= 2. (1) 
x=0,1,2,...,M-1 (4.4-7) 


nas quais usamos a notação funcional em vez de subscritos 
para fins de simplificação. Claramente, F(u) = F, e f(x) =f. 
A partir de agora, utilizaremos as equações 4.4-6 e 4.4-7 
para expressar o par DFT unidimensional. Alguns autores 
incluem o termo 1/M na Equação 4.4-6 em vez da for- 
ma como mostramos na Equação 4.4-7. Isso não altera a 
comprovação de que as duas equações formam um par de 
transformadas de Fourier. 


Pode-se demonstrar (Exercício 4.9) que tanto a 
transformada discreta direta quanto a inversa são infini- 
tamente periódicas, com período M. Isto é, 


F(u) = F(u + kM) (4.4-8) 


f(x) = f(x + kM) (4.4-9) 


sendo k é um número inteiro. 


O equivalente discreto da convolução na Equação 
4.2-20 é 


(4.4-10) 


para x = 0, 1, 2, ..., M — 1. Como nas formulações ante- 
riores as funções são periódicas, sua convolução também 
é periódica. A Equação 4.4-10 nos fornece um período da 
convolução periódica. Por isso, o processo inerente a essa 
equação muitas vezes é chamado de convolução circular e é 
um resultado direto da periodicidade da DFT e sua inver- 
sa. Isso contrasta com a convolução que estudamos na 
Seção 3.4.2, na qual os valores do deslocamento, x, eram 
determinados pelo requisito de deslocar uma função pas- 
sando completamente pela outra e não se restringiam ao 


* Não é óbvio por que a função discreta f(x) deveria ser periódica, 
considerando que a função contínua da qual ela foi amostrada 
pode não ser. Uma maneira informal de entender isso é ter em 
mente que a amostragem resulta em uma DFT periódica. É lógico 
que f(x), que é a DFT inversa, também deve ser periódica para 
que o par DFT possa existir. 
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intervalo [0, M — 1], como na convolução circular. Ana- 
lisaremos essa diferença e sua importância na Seção 4.6.3 
e na Figura 4.28. 

Por fim, observamos que o teorema da convolução 
determinado nas equações 4.2-21 e 4.2-22 também é 
aplicável às variáveis discretas (Exercício 4.10). 


442 Relacionamento entre intervalos de 
frequência e amostragem 
Se f(x) consiste em M amostras de uma função f(t) 
obtidas em intervalos de AT, a duração do sinal que com- 
põe o conjunto {f(x)}, x=0,1,2,.,M-— 1,é 


T=MAT (4.4-11) 


O espaçamento correspondente, Ay no domínio da 
frequência discreta resulta da Equação 4.4-3: 


1 1 


n= > => (4.4-12) 
MAT T 


Todo o intervalo de frequência coberto pelos M 
componentes da DFT é 


ü= = 
AT 


(4.4-13) 

Dessa forma, vemos, a partir das equações 4.4-12 
e 4.4-13, que a resolução em termos de frequência, Au, 
da DFT depende da duração T ao longo da qual a função 
contínua, f(t), é amostrada, e o intervalo de frequências 
coberto pela DFT depende do intervalo de amostragem 
AT. Observe que ambas as expressões apresentam rela- 
cionamentos inversos em relação a T e AT. 


E 
Exemplo 4.4 A mecânica do cálculo da DFT. 


A Figura 4.11 (a) mostra quatro amostras de uma fun- 
ção contínua, f(t), obtidas em intervalos de AT. A Figura 
4.11(b) mostra os valores da amostragem no domínio de x. 
Observe que os valores de x são 0, 1, 2 e 3, indicando que 
poderíamos nos referir a quaisquer quatro amostras de f(t). 


Da Equação 4.4-6, 
FO =X fo)=[F0)+fM+ f(2)+ fB] 
=]+2+4+4=11 
O próximo valor de F(u) é 


F(l)= S5 fixeron 


=]1e +20" 440" +40 P=-3+27 
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to to + 1AT t + 2AT t) + 3AT 
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Ny |L_---------° 
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Figura 4.11 (a) Uma função e (b) amostras no domínio de x. Em (a), t 
é uma variável contínua; em (b), x representa valores inteiros. 


De forma similar, F(2) = —(1 + 0j) e F(3) = —(3 + 2j). 
Observe que todos os valores de f(x) são usados no cálculo de 
cada termo de F(u). 


Se, em vez disso, tivéssimos F(u) e precisássemos calcu- 
lar sua inversa, o procedimento seria o mesmo, mas utilizan- 
do a transformada inversa. Por exemplo, 


O= 4S Fe? 


u=0 


o que está de acordo com a Figura 4.11(b). Os outros valores 


de f(x) são obtidos de modo similar. 
E 


4.5 Extensão para funções de duas 
variáveis 
Nesta seção, estendemos para duas variáveis os con- 
ceitos apresentados nas seções 4.2 a 4.4. 


45.1 O impulso 2-D e sua propriedade de 
peneiramento 


O impulso, ó(t, z) de duas variáveis contínuas, t e z, 
é definido como na Equação 4.2-8: 


00 set=z=0 
ó(t,7)= o 
0 caso contrário  (4.5-la) 
e 
ff oe zdt dz =1 (4.5-1b) 


Como no caso 1-D, 0 impulso 2-D apresenta a pro- 
priedade de peneiramento (sifting) em relação à integração, 


i f(t,z)6(t,z)dt dz = f(0,0) (4.5-2) 


ou, de forma mais geral, para um impulso localizado nas 
coordenadas (fy Z,), 


ff fe26e-1,,2-z,)dt dz = 


OEA (4.5-3) 


Como antes, vemos que a propriedade de peneiramen- 
to resulta no valor da função f(t, z) na posição do impulso. 

Para variáveis discretas x e y, o impulso discreto 2-D 
é definido como 


1 sex=y=0 
6(x,y)= a (4.5-4) 
0 caso contrario 
e sua propriedade de peneiramento é 
» DE flyer y)=f(0,0) (4.5-5) 


X=—00 Y=—0O 
sendo f(x, y) uma função das variáveis discretas x e y. Para 


um impulso localizado nas coordenadas (x, y,) (veja a 
Figura 4.12), a propriedade de peneiramento é 


00 


» » f(x, y)6(x— x5,)— Yo) = 


“CC ts) (4.5-6) 


d(x — Xo, Y — Yo) 


x 


Figura 4.12 Impulso unitário discreto bidimensional. As variáveis x 
e y são discretas e 6 é zero em todos os pontos, exceto nas coorde- 
nadas (x,, y) 


Como antes, a propriedade de peneiramento de um 
impulso discreto resulta no valor da função discreta f(x, y) 
na posição do impulso. 


4.5.2 O par continuo de transformadas de Fourier 2-D 

Seja f(t, z) uma função contínua de duas variáveis 
contínuas, te z. O par contínuo de transformadas de Fou- 
rier bidimensional é dado pelas expressões 


F(u,v) = J> T flt,z)e PU dtdz (4.5-7) 


Ht,z)= 1- T F(u, vj dudv (4.5-8) 


onde y e v são variáveis de frequência. No que se refere 
às imagens, t e z são interpretadas como variáveis espaciais 
contínuas. E, no caso 1-D, o dominio das variáveis u e v 
define o domínio da frequência contínua. 


= 
Exemplo 4.5 Obtenção da transformada de Fourier 2-D 
de uma função simples. 


A Figura 4.13(a) mostra uma função 2-D análoga ao 
caso 1-D do Exemplo 4.1. Seguindo um procedimento simi- 
lar ao utilizado nesse exemplo, temos o resultado 


F(u,v) = ‘i f(t, ze amu) dt dz 


T/2 Z/2 A 
= AeTI?T e) dt dz 
—T/2Y —Z/2 
sen(muT) || sen(mvZ) 
(muT) || (7v2) 


A magnitude (espectro) é dada pela expressão 


sen(7TLT) 
(TUT) 


sen(mvZ) 
(TvZ) 


F(u, v| = ATZ 


A Figura 4.13(b) mostra uma porção do espectro nas 
proximidades da origem. Como no caso 1-D, as posições dos 


Figura 4.13 
mais “contraído” ao longo do eixo y. Compare com a Figura 4.4. 
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zeros no espectro são inversamente proporcionais aos valo- 
res de Te Z. Dessa forma, quanto maiores forem T e Z, mais 


“contraído” se tornará o espectro e vice-versa. 
oO 


45.3 Amostragem bidimensional e teorema da 
amostragem 2-D 


De forma similar ao caso 1-D, a amostragem em 
duas dimensões pode ser modelada utilizando a função 
de amostragem (trem de impulsos 2-D): 


Sapazt,Z)= 


> S ó(t— mAT,z—nÃ£Z) 


m=-—00 n=— 00 


(4.5-9) 


onde AT e AZ correspondem aos intervalos entre as 
amostras ao longo do eixo t e z da função contínua 
fit, z). A Equação 4.5-9 descreve um conjunto de impul- 
sos periódicos que se estendem infinitamente ao longo 
dos dois eixos (Figura 4.14). Como no caso 1-D ilustrado 
na Figura 4.5, multiplicar f(t, z) por s,..,.(¢, z) resulta na 
função amostrada. 


ATAZ 


Diz-se que a função f(t, z) é de banda limitada se sua 
transformada de Fourier tiver valor O fora de um retângulo 
definido pelos intervalos [= Ma] © Yna Vas): isto É, 


máx” máx 


Fu, v)=Oparalu > Hag E VI Vag (45-10) 


O teorema da amostragem bidimensional estabelece 
que uma função contínua e de banda limitada f(t, z) pode 
ser recuperada sem erro a partir de um conjunto de suas 
amostras se os intervalos de amostragem forem 


ATr<— | (4.5-11) 
2 Umax 
e 
jl 
Az < (4.5-12) 
2v 


máx 


ou, em termos da taxa de amostragem, se 


|F (u, v)| 


DAH 
ZA 
is 


(a) Uma função 2-D e (b) uma seção de seu espectro (fora de escala). O bloco é mais longo no eixo t, de forma que o espectro é 
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saraz(t, z) 


1 
—>2 4.5-13 
AT” Ma ( ) 
€ 
1 
— > Ya (4.5-14) 
AZ 


Dito de outra forma, nenhuma informação é per- 
dida se uma função 2-D de banda limitada, contínua, for 
representada por amostras obtidas em taxas maiores do 
que o dobro do mais alto conteúdo de frequência da fun- 
ção em ambas as direções, y e v. 


A Figura 4.15 mostra os equivalentes 2-D das fi- 
guras 4.6(b) e (d). Um filtro retangular ideal 2-D tem a 
forma ilustrada na Figura 4.13(a). A região tracejada da 
Figura 4.15(a) mostra a posição do filtro para atingir o 
isolamento necessário de um único período da transforma- 
da para a reconstrução de uma função de banda limitada 
a partir de suas amostras, como fizemos na Seção 4.3.3. 
Com base na Seção 4.3.4, sabemos que, se a função for 
subamostrada, os períodos se sobrepõem e é impossível 
isolar um período único, como mostra a Figura 4.15(b). 
Essas condições resultariam em aliasing. 


a Área de cobertura de b 
um filtro retangular 
passa-baixa ideal 
(box filter) 


a 


> V 


máx 


~ 


H u 


Figura 4.15 (a) Transformadas bidimensionais de Fourier de uma 
função de banda limitada (a) com sobreamostragem e (b) com suba- 
mostragem. 


4.5.4 Aliasing em imagens 


Nesta seção, estendemos o conceito do aliasing para 
imagens e analisamos vários aspectos relativos à amostra- 
gem e reamostragem de imagens. 


Extensão do aliasing 1-D 


Como no caso 1-D, uma função continua f(t, z) de 
duas variáveis contínuas, t e z, pode ser de banda limitada 
em geral somente no caso de se estender infinitamente em 
ambas as direções coordenadas. O próprio ato de limitar 
a duração da função apresenta componentes de frequên- 
cia corruptores se estendendo ao infinito no domínio da 
frequência, como explicado na Seção 4.3.4. Como não 
podemos amostrar infinitamente uma função, o aliasing 
está sempre presente em imagens digitais, da mesma for- 
ma como está presente nas funções 1-D amostradas. Em 
geral, o aliasing se manifesta em imagens de duas formas: 
aliasing espacial e aliasing temporal. O aliasing espacial se 
deve à subamostragem, como vimos na Seção 4.3.4. O 
aliasing temporal diz respeito a intervalos de tempo en- 
tre as imagens em uma sequência de imagens. Um dos 
exemplos mais comuns de aliasing temporal é o efeito 
de “roda de carroça”, no qual rodas com raios em uma 
sequência de imagens (por exemplo, em um filme) pa- 
recem estar girando para trás. Esse efeito é provocado 
pelo fato de a velocidade de projeção ser baixa demais 
em relação à velocidade da rotação da roda na sequência. 


Nosso foco neste capítulo é no aliasing espacial. Os 
principais problemas no aliasing espacial em imagens são 
a inserção de artefatos como jaggies (serrilhados) nas li- 
nhas, saliências falsas e o aparecimento de padrões de 
frequência ausentes na imagem original. O exemplo a 
seguir ilustra o aliasing em imagens. 


= 
Exemplo 4.6 Aliasing em imagens. 


Suponha que tenhamos um sistema perfeito de aqui- 
sição de imagens, no sentido de ser livre de ruído e produzir 
uma imagem digital exatamente igual a que é observada, 
mas o número de amostras possíveis é fixo em 96 x 96 pi- 
xels. Se utilizarmos esse sistema para digitalizar padrões 
de “tabuleiro de dama”, ele poderá resolver padrões de até 
96 x 96 quadrados, nos quais o tamanho de cada quadrado 
é de 1 x 1 pixel. Nesse caso restritivo, cada pixel na imagem 
resultante corresponderá a um quadrado no padrão. Nosso 
interesse é analisar o que acontece quando o detalhe (o ta- 
manho dos quadrados do tabuleiro de dama) é menor que o 
tamanho de um pixel da câmera; isto é, quando o sistema de 


Esse exemplo não deve ser interpretado como não realista. A 
amostragem de uma cena “perfeita”, em condições livres de ruído 
e distorção, é comum quando se convertem modelos gerados por 
computador e imagens vetoriais em imagens digitais. 


aquisição de imagens deve digitalizar padrões de tabuleiro 
de dama com mais de 96 x 96 quadrados no campo de visão. 
A figuras 4.16(a) e (b) mostram o resultado da amos- 
tragem de tabuleiros de dama cujos lados dos quadrados são 
de tamanho 16 e 6 pixels, respectivamente. Esses resulta- 
dos são os esperados. No entanto, quando o tamanho dos 
quadrados é reduzido a um valor ligeiramente menor que 
o tamanho do pixel da câmera de aquisição, o resultado é 
uma imagem com alto grau de aliasing, como mostra a Fi- 
gura 4.16(c). Por fim, a redução do tamanho dos lados dos 
quadrados a um pouco menos que 0,5 pixel gerou a imagem 
da Figura 4.16(d). Neste caso, o resultado com aliasing tem 
a aparência de um padrão normal de tabuleiro de dama. De 
fato, essa imagem resultaria da amostragem de uma imagem 
com “tabuleiro de dama”, cujos quadrados têm lados de ta- 
manho 12 pixels. Essa última imagem é um bom lembrete 
de que o aliasing pode gerar resultados bastante enganosos. 
E 


Os efeitos do aliasing podem ser reduzidos com um 
ligeiro desfoque da cena a ser digitalizada, de forma que 
as altas frequências sejam atenuadas. Como explicamos 
na Seção 4.3.4, a filtragem antialiasing precisa ser feita an- 
tes da amostragem da imagem. Não existe um aplicativo 
computacional com filtros antialiasing “após o fato” que 
possa ser utilizado para reduzir os efeitos do aliasing cau- 
sados por violações do teorema da amostragem. A maioria 
dos pacotes comerciais de manipulação de imagens digi- 
tais inclui um recurso chamado “antialiasing”. No entan- 
to, como mostramos nos exemplos 4.7 e 4.8, esse termo 
se relaciona ao borramento de uma imagem digital para 
reduzir os artefatos adicionais de aliasing causados pela 
reamostragem. O termo não se aplica à redução do alia- 
sing na imagem amostrada original. Um número signifi- 
cativo de câmeras digitais comerciais incorpora recursos 
de filtragem antialiasing real, na lente ou na superfície do 
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próprio sensor. Por isso, é difícil exemplificar o aliasing 
utilizando imagens obtidas com essas câmeras. 


Interpolação de imagens e reamostragem 


Como no caso 1-D, a reconstrução perfeita de uma 
função de imagem de banda limitada a partir de um 
conjunto de suas amostras requer a convolução 2-D no 
domínio do espaço com uma função sinc. Como expli- 
camos na Seção 4.3.5, essa reconstrução teoricamente 
perfeita requer interpolação utilizando infinitos somató- 
rios que, na prática, nos forçam a buscar aproximações. 
Uma das aplicações mais comuns da interpolação 2-D no 
processamento de imagens é no redimensionamento de 
imagens (ampliação e redução). A ampliação pode ser 
vista como uma sobreamostragem, ao passo que a redu- 
ção pode ser vista como uma subamostragem. A principal 
diferença entre essas duas operações e os conceitos de 
amostragem discutidos nas seções anteriores é que a am- 
pliação e a redução são aplicadas a imagens digitais. 

A interpolação foi explicada na Seção 2.4.4. Nos- 
so interesse na ocasião era ilustrar a interpolação por 
vizinho mais próximo, bilinear e bicúbica. Nesta seção, 
apresentamos alguns exemplos adicionais com foco em 
questões de amostragem e antialiasing. Um caso especial 
de interpolação de vizinho mais próximo que se relaciona 
estreitamente com a sobreamostragem é a ampliação pela 
replicação de pixels, aplicável quando queremos aumentar 
o tamanho de uma imagem um determinado número in- 
teiro de vezes. Por exemplo, para dobrar o tamanho de 
uma imagem, dobramos cada coluna. Isso dobra o tamanho 
da imagem na direção horizontal. Depois, duplicamos 
cada linha da imagem ampliada para dobrar o tamanho 
na direção vertical. O mesmo procedimento é utilizado 


Figura 4.16 Aliasing em imagens. Em (a) e (b), os tamanhos dos lados dos quadrados são 16 e 6 pixels, respectivamente, e o aliasing é vi- 
sualmente desprezível. Em (c) e (d), os lados dos quadrados são 0,9174 e 0,4798 pixels, respectivamente, e os resultados mostram um aliasing 


significativo. Observe que (d) é mascarada como uma imagem “normal”. 


150 Processamento digital de imagens 


para ampliar a imagem qualquer determinado número 
inteiro de vezes. A atribuição do nível de intensidade de 
cada pixel é predeterminada pelo fato de que novas posi- 
ções são duplicatas exatas de antigas posições. 


A redução de imagens é realizada de modo similar 
à ampliação. A subamostragem é obtida pela exclusão li- 
nha-coluna (por exemplo, para reduzir uma imagem pela 
metade, excluímos uma linha sim e outra não e uma co- 
luna sim e outra não). Podemos utilizar a analogia da gra- 
de de ampliação apresentada na Seção 2.4.4 para visua- 
lizarmos o conceito de redução por um fator não inteiro, 
exceto que agora expandimos a grade para se encaixar 
sobre a imagem original, realizamos a interpolação de 
nível de intensidade e voltamos a reduzir a grade a seu 
tamanho especificado. Para reduzir o aliasing, uma boa 
ideia é borrar ligeiramente uma imagem antes de reduzi-la” 
(discutiremos o borramento no domínio da frequência na 
Seção 4.8). Uma técnica alternativa é realizar uma supe- 
ramostragem (super-sampling) da cena original e reduzir 
(reamostrar) seu tamanho por meio da exclusão linha- 
-coluna. Isso pode gerar resultados mais nítidos do que a 
suavização, mas obviamente requer acesso à cena origi- 
nal. Claramente, se não tivermos acesso à cena original 
(como costuma ser o caso na prática), a superamostra- 
gem não é uma opção. 
E 
Exemplo 4.7 Ilustração do aliasing em imagens 
reamostradas. 


Os efeitos do aliasing em geral são piorados quando o 
tamanho de uma imagem digital é reduzido. A Figura 4.17(a) 


é uma imagem criada propositadamente para ilustrar os efei- 
tos do aliasing (observe, nas roupas, as linhas paralelas com 
pouco espaço entre si). Não há artefatos indesejados na Figu- 
ra 4.17(a), indicando que a taxa de amostragem inicialmente 
utilizada foi suficiente para evitar um aliasing visível. Na Figura 
4.17(b), a imagem foi reduzida para 50% de seu tamanho 
original utilizando a exclusão linha-coluna. Os efeitos do 
aliasing são bem visíveis nessa imagem (veja, por exemplo, 
as áreas ao redor dos joelhos). O “equivalente” digital da fil- 
tragem antialiasing de imagens contínuas é atenuar as altas 
frequências de uma imagem digital suavizando-a antes da 
reamostragem. A Figura 4.17(c) mostra o resultado da sua- 
vização da imagem na Figura 4.17(a) com um filtro de média 
3x3 (veja a Seção 3.5) antes de reduzir seu tamanho. As me- 
lhorias em relação à Figura 4.17(b) são claras. As imagens (b) 
e (c) foram redimensionadas até suas dimensões originais por 
meio da replicação de pixels para simplificar as comparações. 

E 


Quando se trabalha com imagens com alto conteúdo 
de borda, os efeitos do aliasing são vistos como compo- 
nentes serrilhados na imagem, chamados de jaggies. O 
exemplo a seguir ilustra esse fenômeno. 


Exemplo 4.8 Ilustração de jaggies na redução de imagem. 


A Figura 4.18(a) mostra uma imagem digital 1.024 x 
1.024 de uma cena gerada por computador na qual o aliasing 
é desprezível. A Figura 4.18(b) é o resultado da redução do 
tamanho de (a) em 75% para 256 x 256 pixels utilizando a 
interpolação bilinear e depois utilizando a replicação de pixels 
para recuperar o tamanho original da imagem, para tornar 
os efeitos do aliasing (no caso, os jaggies) mais visíveis. Como 


Figura 4.17 


Ilustração do aliasing em imagens reamostradas. (a) Imagem digital com aliasing visual desprezível. (b) Resultado do redimen- 


sionamento da imagem para 50% de seu tamanho original por meio da exclusão de pixels. O aliasing é claramente visível. (c) Resultado do 
borramento da imagem em (a) com um filtro de média 3 x 3 antes do redimensionamento. A imagem é ligeiramente mais borrada do que (b), mas 
o aliasing deixa de ser visível. (Imagem original: cortesia de Laboratório de Compressão de Sinal, Universidade da Califórnia, Santa Barbara.) 


* O processo de reamostragem de uma imagem sem usar o barramento de banda limitada é chamado decimation. 
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Figura 4.18 Exemplo de jaggies (serrilhado). (a) Imagem digital 1.024 x 1.024 de uma cena gerada por computador com aliasing desprezível. 
(b) Resultado da redução de (a) para 25% de seu tamanho original utilizando a interpolação bilinear. (c) Resultado do borramento da imagem 
em (a) com um filtro de média 5 x 5 antes do redimensionamento para 25% utilizando a interpolação bilinear. (Imagem original: cortesia de D. P. 


Mitchell, Mental Landscape, LLC.) 


no Exemplo 4.7, os efeitos do aliasing podem ser atenuados 
pela suavização da imagem antes da reamostragem. A Figu- 
ra 4.18(c) é o resultado da utilização de um filtro de média 
5 x 5 antes da redução do tamanho da imagem. Como mostra 
essa figura, os jaggies foram significativamente reduzidos. A 
redução do tamanho e a ampliação para o tamanho original 
na Figura 4.18(c) foram realizadas aplicando a mesma aborda- 
gem utilizada para gerar a Figura 4.18(b). 

E 
= 


Exemplo 4.9 Ilustração de jaggies na ampliação de 
imagem. 

Nos dois exemplos anteriores, utilizamos a replicação 
de pixels para ampliar as pequenas imagens após a reamos- 
tragem. Em geral, essa não é uma abordagem preferencial, 
como ilustra a Figura 4.19. A Figura 4.19(a) mostra uma ima- 
gem ampliada 1.024 x 1.024 gerada pela replicação de pixels 
a partir de uma seção 256 x 256 retirada do centro da imagem 
na Figura 4.18(a). Observe as bordas “serrilhadas”. A ima- 
gem ampliada na Figura 4.19(b) foi gerada a partir da mesma 


seção 256 x 256, mas utilizando a interpolação bilinear. As 
bordas nesse resultado são consideravelmente mais suaves. 
Por exemplo, as bordas do gargalo e os grandes quadrados do 
tabuleiro não são tão serrilhados em (b) quanto em (a). 

E 


Padrões moiré 


Antes de concluirmos esta seção, vamos analisar 
um outro tipo de artefato, chamado padrões moiré,' que 
algumas vezes resulta da amostragem de cenas com 
componentes periódicos ou quase periódicos. Em ótica, 
os padrões moiré se referem a padrões de sobreposição 
produzidos entre duas grades com espaçamento apro- 
ximadamente igual. Esses padrões são uma ocorrência 
cotidiana comum. Nós os vemos, por exemplo, ao sobre- 
por telas mosquiteiras ou na interferência entre as linhas 
de varredura da TV (raster lines) e imagens listradas. No 
processamento digital de imagens, o problema surge ro- 
tineiramente ao digitalizar mídia impressa, como jornais 


Figura 4.19 Ampliação de imagem. (a) Uma imagem digital 1024 x 1024 gerada pela replicação de pixels a partir de uma imagem 256 x 256 ex- 
traída da região central da Figura 4.18(a). (b) Imagem gerada utilizando a interpolação bilinear, mostrando uma redução significativa dos jaggies. 


* 


O termo moiré é uma palavra francesa (não o nome de uma pessoa) que parece ter se originado com os tecelões que notaram pela primeira 


vez os padrões de interferência visíveis em alguns tecidos; o termo tem raízes na palavra mohair, um tecido feito de pelos de cabras de Angola. 
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e revistas, ou em imagens com componentes periódicos 
cujo espaçamento é comparável ao espaçamento entre 
as amostras. É importante notar que os padrões moiré 
são mais gerais do que os artefatos de amostragem. Por 
exemplo, a Figura 4.20 mostra o efeito moiré utilizando 
desenhos a tinta que não foram digitalizados. Separada- 
mente, os padrões são limpos e livres de interferência. 
No entanto, ao sobrepor um padrão no outro, cria-se 
um padrão cujas frequências não se encontram em ne- 
nhum dos padrões originais. Observe em particular o 
efeito moiré produzido por dois padrões de pontos, já 
que esse é o efeito de interesse na análise a seguir. 


Jornais e outros materiais impressos utilizam os 
chamados pontos em meio-tom (halftone), que são pontos 
pretos (ou elipses) cujos tamanhos e diferentes esquemas 
de combinação são utilizados para simular tons de cinza.” 
Como regra, os valores a seguir são os mais utilizados: 
jornais são impressos utilizando 75 pontos de meio-tom 
por polegada (ou 75 dpi, de dots per inch), revistas usam 
133 dpi, e brochuras de alta qualidade utilizam 175 dpi. A 
Figura 4.21 mostra o que acontece quando uma imagem 
de jornal é amostrada em 75 dpi. A malha de amostra- 
gem (orientada vertical e horizontalmente) e os padrões 
de pontos na imagem de jornal (orientados a +45º) inte- 
ragem para criar um padrão moiré uniforme que faz com 
que a imagem tenha uma aparência manchada. (Discu- 
tiremos uma técnica na Seção 4.10.2 para reduzir os pa- 
drões moiré de interferência.) 


Como um ponto de interesse relacionado, a Figura 
4.22 mostra uma imagem de jornal amostrada a 400 dpi 
para evitar efeitos moiré. A ampliação da região ao redor do 
olho esquerdo na foto ilustra como os pontos de meio-tom 
são utilizados para criar tons de cinza. O tamanho do ponto 
é inversamente proporcional à intensidade da imagem. Nas 
áreas claras, os pontos são pequenos ou totalmente ausen- 
tes (veja, por exemplo, a parte branca do olho). Em áreas 
cinza-claro, os pontos são maiores (por exemplo, abaixo 
do olho). Nas áreas mais escuras, quando o tamanho do 
ponto excede um valor especificado (normalmente 50%), 
permite-se que os pontos se unam ao longo de duas dire- 
ções especificadas para formar uma malha interconectada 
(veja, por exemplo, a parte esquerda do olho). Em alguns 
casos, os pontos se unem ao longo de apenas uma direção, 
como a área superior direita abaixo da sobrancelha. 


4.5.5 A transformada discreta de Fourier 2-D e sua 
inversa” 


Cálculos similares aos apresentados nas seções 4.3 e 
4.4 resultariam na seguinte transformada discreta de Fourier 
(DET) 2-D: 


Fiye Pw (4.5-15) 


sendo f(x, y) uma imagem digital de tamanho M x N. 
Como no caso 1-D, a Equação 4.5-15 deve ser avaliada 


Figura 4.20 Exemplos do efeito moiré. Esses são desenhos a tinta, padrões não digitalizados. Sobrepor um padrão no outro equivale matema- 


ticamente a multiplicar os padrões. 


A impressão em cores usa pontos vermelhos, verdes e azuis para produzir aos olhos a sensação de uma cor contínua. 


* Algumas vezes, você verá na literatura a constante 1/MN diante da DFT em vez da IDFT. Por vezes, a constante é expressa como 1/ MN e€ 
é incluída diante das transformadas direta e inversa, criando, assim, um par mais simétrico. Qualquer uma dessas formulações é correta, 


contanto que sejam consistentes. 


Figura 4.21 Uma imagem de jornal de tamanho 246 x 168 pixels 
amostrada em 75 dpi mostrando um padrão moiré. O padrão moiré nes- 
sa imagem é o padrão de interferência criado entre a orientação +45º 
dos pontos em meio-tom e a orientação norte-sul da grade de amos- 
tragem utilizada para digitalizar a imagem. 


em termos dos valores das variáveis discretas u e v nos 
intervalos u = 0, 1, 2, ..., M — lev=0,1,2,.., N- 1º 

Dada a transformada F(u, v), podemos obter f(x, y) 
utilizando a transformada discreta de Fourier inversa (IDFT): 


MA NA 


1 , 
x,y) = — F u,v mto! MAIN) 
f(x,y) Oa (u,v) 


u=0 v=0 


(4.5-16) 


parax=0,1,2,...,M-ley=0,1,2,...,N-— LAS 
equações 4.5-15 e 4.5-16 constituem o par de transfor- 
madas discretas de Fourier 2-D. O restante deste capítulo se 
baseia em propriedades dessas duas equações e sua utili- 
zação na filtragem de imagens no domínio da frequência. 


4.6 Algumas propriedades da 
transformada discreta de Fourier 2-D 


Nesta seção, apresentamos várias propriedades da 
transformada discreta de Fourier 2-D e sua inversa. 


4.6.1 Relacionamentos entre intervalos no espaço 
e na frequência 


As relações entre a amostragem no domínio do espaço 
e os intervalos correspondentes no domínio da frequên- 


* Como mencionamos na Seção 4.4.1, tenha em mente que, neste 
capítulo, utilizamos (t, z) e (4#, v) para expressar variáveis continu- 
as 2-D no domínio do espaço e da frequência, respectivamente. 
No caso discreto 2-D, utilizamos (x, y) para as variáveis espaciais 
e (u, v) para variáveis no domínio da frequência. 
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Figura 4.22 Imagem de jornal e ampliação mostrando como os pon- 
tos em meio-tom são arranjados para representar tons de cinza. 


cia são como explicadas na Seção 4.4.2. Suponha que 
uma função contínua f(t, z) seja amostrada para formar uma 
imagem digital, f(x, y), consistindo em M x N amostras 
obtidas nas direções t e z, respectivamente. Sejam AT e 
AZ os intervalos entre as amostras (veja a Figura 4.14). 
Então, os intervalos entre as variáveis discretas correspon- 
dentes no domínio da frequência são determinadas por 


l 


u= — (4.6-1) 
MAT 
e 
1 
Av =—— (4.6-2) 
NAZ 


respectivamente. Observe que os intervalos entre as amostras 
no domínio da frequência são inversamente proporcionais, 
tanto para o espaçamento entre amostras no domínio do 
espaço quanto para o número de amostras. 


4.6.2 Translação e rotação 


Pode ser demonstrado, pela substituição direta nas 
equações 4.5-15 e 4.5-16, que o par de transformadas de 
Fourier satisfaz as seguintes propriedades de translação 
(Exercício 4.16): 


fx, YeP UAIM + von) & F(u — Uy V— v) (4.6-3) 


fX Xy y— Yy) & Flu, vie PMN (4,6-4) 


Isto é, multiplicar f(x, y) pelo exponencial mostrado 
desloca a origem da DFT para (u, v,) e, inversamente, 
multiplicar F(u, v) pelo negativo desse exponencial des- 
loca a origem de f(x, y) para (Xy y,). Como ilustramos no 
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Exemplo 4.13, a translação não tem efeito algum sobre a 
magnitude (espectro) de F(u, v). 


A utilização das coordenadas polares 
x=rcos0 y=rsen6 u=wcosy v=wseny 


resulta no seguinte par de transformadas: 


flr,0+0)SF(w, p + 4) 


o que indica que rotacionar f(x, y) em um ângulo 0 rota- 
ciona F(u, v) no mesmo ângulo. Inversamente, rotacionar 
F(u, v) rotaciona f(x, y) no mesmo ângulo. 


(4.6-5) 


4.6.3 Periodicidade 


Como no caso 1-D, a transformada de Fourier 2-D e 
sua inversa são infinitamente periódicas nas direções u e v; 
isto é, 


a F(u) 


Dois períodos consecutivos 
se encontram aqui. 


| 


ar 0 M/2—1 


F(u, v) = F(u + k M, v) = F(u, v + kN) 


= F(u + kM, v + kN) (4.6-6) 
e 
fix, y) = fix + kM, y) = fix, y + kN) 
= fix + kM, y + kN) (4.6-7) 


sendo k, e k, números inteiros. 


As periodicidades da transformada e de sua in- 
versa representam importantes questões na implemen- 
tação dos algoritmos baseados em DFT. Vejamos o es- 
pectro 1-D da Figura 4.23(a). Como explicado na Seção 
4.4.1, os dados da transformada no intervalo de 0 a M — 1 
consistem em dois meio períodos consecutivos se encon- 
trando no ponto M/2. Para fins de exibição e filtragem, é 
mais prático ter, nesse intervalo, um período completo da 


b F(u) 


Quatro períodos 
consecutivos se 


LA = Períodos da DFT. 


Pub AN 
M-1 


M/2 
— Um período (M amostras) 


Dois períodos consecutivos 
se encontram aqui. 


d 


u I 
Quatro períodos 


consecutivos se 
encontram aqui. 


[] = Arranjo matricial de dados M X N, F(u, v). 


Figura 4.23 Centralização da transformada de Fourier. (a) Uma DFT 1-D mostrando um número infinito de períodos. (b) DFT deslocada obtida 
multiplicando f(x) por (—1) antes do cálculo de F(u). (c) Uma DFT 2-D mostrando um número infinito de períodos. A área sólida é o arranjo matricial 
de dados M x N, F(u, v), obtido com a Equação 4.5-15. Esse arranjo consiste em quatro parcelas de um quarto de período. (d) Uma DFT deslocada 
obtida multiplicando f(x, y) por (-1)**Y antes do cálculo de F(u, v). Agora, os dados contêm um período completo e centralizado, como em (b). 


transformada no qual os dados são contíguos, como na 
Figura 4.23(b). Segue-se da Equação 4.6-3 que 
fx) eram) és F(u = Us) 
Em outras palavras, multiplicar f(x) pelo termo expo- 
nencial mostrado desloca os dados de forma que a origem 
F(0) fica localizada em p, Se fizermos p, = M/2, o termo 


exponencial passa a ser e”, que equivale a (—1)* porque x é 
um número inteiro. Nesse caso, 


fo)(=1y & F(u — M/2) 


Isto é, multiplicar f(x) por (—1)* desloca os dados de 
forma que F(0) fica no centro do intervalo [0, M — 1], o 
que corresponde à Figura 4.23(b), como desejado. 


No caso 2-D, a situação é mais difícil de representar 
graficamente, mas o princípio é o mesmo, como mostra 
a Figura 4.23(c). Em vez de dois meio períodos, agora 
temos quatro parcelas de um quarto de período se en- 
contrando no ponto (M/2, N/2). Os retângulos tracejados 
correspondem ao número infinito de períodos da DFT 
2-D. Como no caso 1-D, a visualização é simplificada se 
deslocarmos os dados de forma que F(0, 0) se posicione 
em (M/2, N/2). Determinar (uy v,) = (M/2, N/2) na Equa- 
ção 4.6-3 resulta na expressão 


fix, y)(-1)"*? & F(u — M/2, v— N/2) (4.6-8) 


Utilizar essa equação desloca os dados de forma que 
F(0, 0) se posicione no centro do retângulo de frequências 
definido pelos intervalos [0, M — 1] e [0, N — 1], como 
desejado. A Figura 4.23(d) mostra o resultado. Ilustrare- 
mos esses conceitos mais adiante nesta seção como parte 
do Exemplo 4.11 e da Figura 4.24. 


4.6.4 Propriedades de simetria 


Um importante resultado da análise funcional é que 
qualquer função real ou complexa, w(x, y), pode ser ex- 
pressa como a soma de uma parte par e uma ímpar (sendo 
que cada uma delas pode ser real ou complexa): 


W(X, y) = w,(x, y) + wx, y) (4.6-9) 
onde as partes par e impar sao definidas como 
w (x,y) £ o (4.6-10a) 
e 
w (x,y) 4 WAXY) WAXY) 46-10) 


2 


Substituindo as equações 4.6-10(a) e 4.6-10(b) 
na Equação 4.6-9, temos a identidade w(x, y) = w(x, y), 
provando, dessa forma, a validade da última equação. 
Segue-se das definições precedentes que 
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w (x, y) = w(—x, =y) (4.6-1l1a) 
e que 


w(x, y) = —w{—X, —)) (4.6-11b) 


Diz-se que funções pares são simétricas, e que funções 
ímpares são antissimétricas. Como todos os índices na DFT e 
na IDFT são positivos, quando falamos de simetria (antis- 
simetria), estamos nos referindo à simetria (antissimetria) 
em relação ao ponto central de uma sequência. Em termos 
da Equação 4.6-11, os índices à direita do ponto central de 
um arranjo 1-D são considerados positivos, e os índices à 
esquerda são considerados negativos (e, de forma similar, 
no caso 2-D). Em nosso trabalho, é mais prático pensar 
somente em termos de índices não negativos, caso no qual 
as definições de paridade e imparidade passam a ser: 


vw lx, y= w (M -x N-y) (4.6-12a) 


wdx, y) = —w(M — x, N- y) (4.6-12b) 


onde, como sempre, M e N são o número de linhas e co- 
lunas de um arranjo matricial 2-D. 


Sabemos, com base na análise matemática elementar, 
que o produto de duas funções pares ou duas funções ím- 
pares é par e que o produto de uma função par e uma 
ímpar é ímpar. Além disso, a única forma de uma função 
discreta ser ímpar é se todas as suas amostras somadas 
resultarem em zero.’ Essas propriedades levam à impor- 
tante conclusão que 


Es 


ANA 


Dove, yw (x,y) = 0 


y= 


(4.6-13) 


Il 
© 


X 
para quaisquer duas funções discretas par e ímpar w, e w, 
Em outras palavras, como o argumento da Equação 4.6-13 
é ímpar, o resultado dos somatórios é 0. As funções po- 
dem ser reais ou complexas. 


E 
Exemplo 4.10 Funções pares e ímpares. 


Apesar de a paridade e a imparidade serem facilmente 
visualizadas no caso de funções contínuas, esses conceitos 
não são tão intuitivos ao lidar com sequências discretas. As 
ilustrações a seguir ajudarão a esclarecer as ideias desenvol- 
vidas nesta seção. Considere a sequência 1-D 


f= flO) fl) f2) 10) 


* Para se convencer de que o somatório das amostras de uma função 
ímpar é igual a zero, esboce um período de uma onda senoidal 1-D 
ao redor da origem ou qualquer outro intervalo de um período. 
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na qual M = 4. Para testar a paridade, a condição f(x) = 
f(4 — x) deve ser satisfeita; isto é, precisamos que 


flO) = f4), fl2) = fl2), FO.) = fB), fB) =f) 


Como f(4) está fora do intervalo de análise e pode ter 
qualquer valor, o valor de f (0) é irrelevante no teste da pa- 
ridade. Vemos que as próximas três condições são satisfeitas 
pelos valores do arranjo, de forma que a sequência é par. 
Com efeito, concluímos que qualquer sequência par de 4 
pontos deve ter a fórmula 


{fa bc dj 
Isto é, só o segundo e o último pontos devem ser iguais 
em uma sequência par de 4 pontos. 


Uma sequência ímpar apresenta a interessante pro- 
priedade de que seu primeiro termo, w(0, 0), é sempre 0, 
um fato que se resulta diretamente da Equação 4.6-10b. 
Considere a sequência 1-D 


9=19(0) g(1) g(2) 
=(0 -1 0 1) 


9(3)) 


Podemos facilmente confirmar que se trata de uma 
sequência ímpar observando que seus termos satisfazem a 
condição g(x) = —g(4 — x). Por exemplo, g(1) = —g(3). 

Qualquer sequência ímpar de 4 pontos tem a fórmula 


0 -b 0 b 


Isto é, quando M é um número par, uma sequência 
ímpar 1-D apresenta a propriedade de que os pontos nas po- 
sições O e M/2 são sempre iguais a zero. Quando M é ímpar, 
o primeiro termo ainda é igual a 0, mas os outros termos 
formam pares com valores iguais, mas sinais opostos. 


A análise citada indica que a paridade e a imparidade 
de sequências também dependem do tamanho das sequên- 
cias. Por exemplo, já mostramos que a sequência {0 —1 0 1) 
é ímpar. No entanto, a sequência {0 —1 0 1 0} não é par nem 
ímpar, apesar de a estrutura “básica” aparentar ser ímpar. 
Essa é uma importante questão na interpretação dos resulta- 
dos da DFT. Veremos mais adiante nesta seção que as DFTs de 
funções pares e ímpares apresentam algumas características 
importantes. Dessa forma, saber quando uma função é ímpar 
ou par tem um papel fundamental na nossa capacidade de 
interpretar os resultados de imagem com base nas DFTs. 


As mesmas considerações básicas se aplicam também 
no caso 2-D. Por exemplo, a sequência 6 x 6 2-D” 


00 0000 


0 0 0 0 0 0 
0 0 -1 0 10 
0 0 -2 0 2 0 
0 0 -1 0 10 


00 0 0 0 0 


* A título de exercício, você pode utilizar a Equação 4.6-12(b) para 
comprovar se essa sequência 2-D é ímpar. 


é ímpar. No entanto, adicionar mais uma linha ou coluna de 
Os nos daria um resultado que não é ímpar nem par. Obser- 
ve que a estrutura interna desse arranjo é uma máscara de 
Sobel, como discutimos na Seção 3.6.4. Retomaremos a essa 
máscara no Exemplo 4.15. 

E 


Munidos dos conceitos anteriores, podemos esta- 
belecer um conjunto de importantes propriedades de si- 
metria da DFT e sua inversa. Uma propriedade utilizada 
frequentemente é que a transformada de Fourier de uma 
função real, flx, y), é conjugada simétrica: 


F*(u, v) = F(—u, —v) (4.6-14) 


Se f(x, y) é imaginária, sua transformada de Fourier 
é conjugada antissimétrica:” F*(—u, —v) = —F(u, v). A com- 
provação da Equação 4.6-14 é: 


MA NA * 
f(x y)e —j2n(ux/M+vy/N) 


x=0 y=0 


= >f + (x, yje em ux/M+vy/N) 


‘j2n([—u]x/M+[—v]y/N) 


= F(x, ye 


sendo que o terceiro passo resulta do fato de f(x, y) ser 
real. Uma abordagem similar pode ser utilizada para 
comprovar a antissimetria conjugada apresentada pela 
transformada de funções imaginárias. 


A Tabela 4.1 apresenta simetrias e propriedades 
relacionadas das DFT úteis no processamento digital de 
imagens. Lembrando que as setas duplas indicam os pa- 
res de transformadas de Fourier; isto é, para qualquer li- 
nha da tabela, as propriedades à direita são satisfeitas pela 
transformada de Fourier da função que apresenta as pro- 
priedades listadas à esquerda, e vice-versa. Por exemplo, 
a linha 5 é lida da seguinte forma: a DFT de uma função 
real f(x, y) na qual (x, y) é substituído por (—x, —y) é F*(u, v), 
onde F(u, v), a DFT de f(x, y), é uma função complexa e 
vice-versa. 


Exemplo 4.11 Ilustrações 1-D das propriedades da 


Tabela 4.1. 


No que diz respeito aos conceitos de par e ímpar 
explicados anteriormente e ilustrados no Exemplo 4.10, 
as sequências 1-D a seguir e suas transformadas são bre- 
ves exemplos das propriedades relacionadas na Tabela 4.1. 


“ A simetria conjugada também é chamada de simetria hermitiana. 
O termo anti-hermitiana é, por vezes, utilizado para se referir à 
antissimetria conjugada. 


Tabela 4.1 Algumas propriedades de simetria da DFT 2-D e sua in- 
versa. R (u, v) e /(u, v) são as partes real e imaginária 
de F(u, v), respectivamente. O termo complexo indica 
que uma função tem as partes imaginária e real dife- 


rentes de zero. 
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B 
Exemplo 4.12 Comprovação de várias propriedades de 
simetria da DFT da Tabela 4.1. 


Neste exemplo, comprovamos várias das propriedades 
apresentadas na Tabela 4.1 para nos familiarizar com a mani- 
pulação dessas importantes propriedades e formar uma base 
para solucionar alguns dos exercícios propostos no final do 
capítulo. Comprovamos apenas as propriedades à direita a 
partir das propriedades da esquerda. O oposto é comprovado 
de forma similar às provas apresentadas aqui. 


Consideremos a propriedade 3, que diz que: se f(x, y) 
for uma função real, a parte real de sua DFT é par e a parte 
imaginária é ímpar; de forma similar, se uma DFT tiver partes 
real e imaginária que sejam par e ímpar, respectivamente, sua 
IDFT é uma função real. Comprovamos formalmente essa 
propriedade como se segue. F(u, v) é em geral complexa, de 
forma que pode ser expressa como a soma de uma parte real e 
uma parte imaginária: F(u, v) = R(u, v) + jI(u, v). Assim, F*(u, v) 
= R(u, v) — jl(u, v). Além disso, F(—u, —v) = R(—u, —v) + 
jl(—u, —v). Mas, como comprovado anteriormente, se f(x, y) 
for real, então F*(u, v) = F(—u, —v), 0 que, com base nas 
duas equações anteriores, significa que R(u, v) = R(—u 


Domínio do espaço” Domínio da frequência 
1 f(x, y) real e F*(u, v) = F(-u, -v) 
2 f(x, y) imaginária e Feu, -y=—Flu, v) 
3 f(x, y) real e R(u, v) par; (u,v) ímpar 
4 f(x, y) imaginária e R(u, v) ímpar; Mu, v) par 
5 f(-x, —y) real e Fu, v) complexa 
6 f(-x, —y) complexa e F(-u, —v) complexa 
7 Fix, y) complexa e F-u, —v) complexa 
8 f(x, y) real e par e Flu, v) real e par 
9 f(x, y) real e ímpar <4 | Flu, v} imaginária e ímpar 
10 f(x, y)imagindriae par | & Flu, v) imaginária e par 
1 f(x, y) imaginária e ímpar | © Flu, v) real e ímpar 
12 f(x, y) complexa e par S Flu, v) complexa e par 
13 | f(x, y) complexa e ímpar | < | Flu, v} complexa e ímpar 


Os números entre parênteses à direita são os elementos in- 
dividuais de F(u), e o mesmo se aplica a f(x) às duas últimas 


propriedades. 
Propriedade f(x) F(u) 
3 {1 2 3 4} ((10)(-2+ 2)) 
(—2)(—2 —2))} 
4 jl 23 46 {(2, a 
(=0/57) (—0,5 = 0,5) 
8 {2 1 1 Is DD | 
9 {0 —1 0 1} = {(0) (27) (0)(—25)} 
10 K2 111e (67) 0)0)0)} 
q HO —1 0 1} = {(0)(—2)(0)(2)} 
12 {(4 + 47)(3 +27). = {(10 fe 07) (4 + 2))- 
(0+ 2j)(3 + 2j)}  -(—2 + 2j)(4+ 2) 
13 {(0 + 0) (1 + 17). & eee oe 
nf 


HO + 0) (~1-)) 0 + 0j)(—2 + 2j) 
Por exemplo, na propriedade 3, vemos que uma fun- 
ção real com elementos {1 2 3 4} apresenta a transformada de 
Fourier cuja parte real, (10 —2 —2 —2}, é par e cuja parte ima- 
ginária, {0 2 0 —2), é ímpar. A propriedade 8 informa que uma 
função real par apresenta uma transformada que também é 
real e par. A propriedade 12 indica que uma função complexa 
par apresenta uma transformada que também é complexa e 

par. Os outros exemplos são analisados de forma similar. 
= 


* Lembre-se x, y, u e v são variáveis discretas (inteiras), com xe u no 
intervalo [0, M — 1], ey e v no intervalo [0, N — 1]. Dizer que uma 
função complexa é par significa que suas partes real e imaginária 
são pares e o mesmo se aplica a uma função complexa ímpar. 


v) e I(u, v) = —I(—u, —v). Como resultado das equações 
4.6-11(a) e (b), isso prova que R é uma função par e que T é 
uma função ímpar. 

Em seguida, comprovamos a propriedade 8. Se f(x, y) 
for real, sabemos, com base na propriedade 3, que a parte 
real de F(u, v) é par, de forma que, para comprovar a pro- 
priedade 8, tudo o que precisamos fazer é demonstrar que, 
se f(x, y) for real e par, então a parte imaginária de F(u, v) é 
O (isto é, F é real). Os passos são os seguintes: 


ANA 
f(x, \e i?" (ux/M+vyIN) 


x=0 y=0 
que podemos escrever como 


—j2n(ux/M+vy/N) 


= on (x, y)]e 22731 prt) 
= [par] [par — j impar] [par — j ímpar] 


= “[par][par par — 2j par - ímpar — 
x=0 y=0 
ímpar - ímpar] 

MA NA 


MA N— 
= D [par-par] — 2j [par : ímpar] — 
x=0 y=0 x=0 y=0 
M-I N— 
ar par] 
x=0 y= 
= real 


O quarto passo resulta da equação de Euler e do fato 
de o cosseno e o seno serem funções par e ímpar, respecti- 
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vamente. Também sabemos, com base na propriedade 8, 
que, além de ser real, fé uma função par. O único termo 
na penúltima linha contendo componentes imaginários é o 
segundo termo, que é 0 de acordo com a Equação 4.6-14. 
Dessa forma, se ffor real e par, então F é real. Como obser- 
vamos anteriormente, F também é par porque fé real. Isto 
conclui a comprovação. 

Finalmente, comprovamos a validade da propriedade 
6. A partir da definição da DFT,” 


SS j2 IM IN 
f(—=x,—y)e” m(ux/M+vy/N) 


Em razão da periodicidade, f(—x, —y) = Î[(M — x, N — y). 
Se agora definirmos m = M — xe n = N — y, então 


=I N= 


S{f( Eo m, nye —j2xn(u[M—m]/M+v[N—n]/N 


m=0 n=0 


(Se quiser comprovar que os somatórios estão corre- 
tos, tente uma transformada 1-D e expanda alguns termos à 
mão.) Como exp [—/27 (número inteiro)] = 1, segue-se que 


RR j2 IM IN 
+ 
S{f(—x, j=>; fim ne m(um vnlN) 
m=0 n=0 
= F(—u,—v) 


Isso conclui a comprovação. 


46.5 Espectro de Fourier e ângulo de fase 


Como a DFT 2-D é em geral complexa, ela pode ser 
expressa na fórmula polar: 


F(u, v) = IF(u, vilet») (4.6-15) 
sendo que a magnitude 
lF(u, v)l = [R (u, v) + P (u, v)]'? (4.6-16) 


é chamada de espectro de Fourier (ou de frequência) e 


I(u,v) 
R(u,v) 
é o ângulo de fase. Lembre-se, com base na análise da 
Seção 4.2.1, que o arctan deve ser calculado utilizando 
o arco-tangente de quatro quadrantes, como a função 
atan2 (Imag, Real) do Matlab. 


(u,v) = arctan (4.6-17) 


Por fim, o espectro de potência é definido como 


P(u, v) = IF(u, v)P 


=R(u,v)+P(u,v) (4.6-18) 


* Observe que não estamos realizando uma mudança de variável 
aqui. Estamos avaliando a DFT de f(-x, —y), de forma que sim- 
plesmente incluímos essa função na equação, como faríamos 
com qualquer outra função. 


Como antes, R e I são as partes real e imaginária de 
F(u, v) e todos os cálculos são realizados para as variáveis 
discretas u = 0, 1, 2, ...,M — lev=0,1,2,..,N-1. 
Dessa forma, F(u, v), ọ (u, v) e P(u, v) são arranjos matriciais 
de tamanho M x N. 

A transformada de Fourier de uma função real é con- 
jugada simétrica (Equação 4.6-14), isso quer dizer que o 
espectro apresenta simetria par em relação à origem: 

lF(u, v)| = IF(—u, —v)I (4.6-19) 


O ângulo de fase apresenta a seguinte simetria ím- 
par em relação à origem: 


plu, v) = —ọ(—u, —v) 
Segue-se da Equação 4.5-15 que 


(4.6-20) 


MA NA 


wits) 


x=0 y=0 


F(0,0) = 


o que indica que o termo de frequência zero é proporcio- 
nal ao valor médio de f(x, y). Isto é, 


=l NA 
F(0,0) = MN — fi f(x,y) 
x=0 y=0 
= MNF (x,y) (4.6-21) 
onde f expressa o valor médio de f. Então, 
IF (0,0)! = MNIf (x, y)| (4.6-22) 


Como a constante de proporcionalidade MN costuma 
ser grande, normalmente IF(0, 0)I é o maior componente 
do espectro por um fator que pode ser várias ordens de 
magnitude maior que os outros termos. Como os com- 
ponentes de frequência u e v são zero na origem, F(0, 0) 
algumas vezes é chamado de componente dc da transforma- 
da. Essa terminologia provém da engenharia elétrica, em 
que “dc” significa corrente contínua (direct current), isto é, 
corrente de frequência zero. 


= 
Exemplo 4.13 0 espectro de Fourier 2-D de uma função 
simples. 


A Figura 4.24(a) mostra uma imagem simples, e a Figu- 
ra 4.24(b) mostra seu espectro, cujos valores foram ajusta- 
dos para o intervalo [0, 255] e exibidos na forma de uma 
imagem. As origens tanto do domínio do espaço quanto da 
frequência se posicionam no canto superior esquerdo. Duas 
características são evidentes na Figura 4.22(b). Como espe- 
rado, a área ao redor da origem da transformada contém os 
valores mais altos (que aparece mais clara na imagem). No 
entanto, observe que os quatro cantos do espectro similar- 
mente contêm valores altos. A razão para isso é a propriedade 
de periodicidade discutida na seção anterior. Para centralizar 


— 


u 


Figura 4.24 
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u 


(a) Imagem. (b) Espectro mostrando regiões com pontos claros nos quatro cantos. (c) Espectro centralizado. (d) Resultado mostran- 


do detalhes realçados após uma transformação logarítmica. Os cruzamentos por zero do espectro são mais próximos na direção vertical porque 
o retângulo em (a) é maior nessa direção. A convenção de coordenadas utilizada neste livro posiciona a origem dos domínios do espaço e da 


frequência no canto superior esquerdo. 


o espectro, simplesmente multiplicamos a imagem em (a) por 
(—1) antes de calcular a DFT, como indicado na Equação 
4.6-8. A Figura 4.24(c) mostra o resultado, que é claramente 
muito mais fácil de visualizar (observe a simetria em relação 
ao ponto central). Como o termo dc domina os valores do 
espectro, a faixa dinâmica das outras intensidades da imagem 
exibida é comprimida. Para mostrar esses detalhes, realiza- 
mos uma transformação logarítmica, como descrito na Seção 
3.2.2. A Figura 4.24(d) mostra a exibição de (1 + log IF(u, v)l). 
O maior nível de detalhamento é evidente. A maioria dos 
espectros mostrados neste e nos capítulos subsequentes é 
ajustada dessa forma. 


Segue-se das equações 4.6-4 e 4.6-5 que o espectro é in- 
sensível à translação da imagem (o valor absoluto do termo 
exponencial é 1), mas se rotaciona no mesmo ângulo de uma 
imagem rotacionada. A Figura 4.25 ilustra essas propriedades. 
O espectro da Figura 4.25(b) é idêntico ao espectro da Figura 
4.24(d). Claramente as imagens das figuras 4.24(a) e 4.25(a) 
são diferentes, de forma que, se seus espectros de Fourier são 
os mesmos, então, com base na Equação 4.6-15, seus ângulos 
de fase devem ser diferentes. A Figura 4.26 confirma isso. As 
figuras 4.26(a) e (b) são os arranjos de ângulo de fase (mos- 
trados como imagens) das DFTs das figuras 4.24(a) e 4.25(a). 
Observe a ausência de semelhança entre as imagens da fase, 
apesar do fato de que a única diferença entre suas imagens cor- 
respondentes é a simples translação. Em geral, a análise visual 


Figura 4.25 


(a) O retângulo da Figura 4.24(a) transladado e (b) o 
espectro correspondente. (c) Retângulo rotacionado e (d) o espectro 
correspondente. O espectro correspondente ao retângulo transla- 
dado é idêntico ao espectro correspondente à imagem original na 
Figura 4.24(a). 
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Figura 4.26 Angulo de fase correspondente (a) à imagem do retângulo centralizado na Figura 4.24(a), (b) à imagem transladada na Figura 


4.25(a) e (c) à imagem rotacionada na Figura 4.25(c). 


das imagens de ângulo de fase resulta em pouca informação 
intuitiva. Por exemplo, em virtude de sua orientação de 45º, 
seria possível esperar intuitivamente que o ângulo de fase da 
Figura 4.26(a) correspondesse à imagem rotacionada da Figura 
4.25(c), e não à imagem da Figura 4.24(a). Com efeito, como 
mostra a Figura 4.26(c), o ângulo de fase da imagem rotacio- 
nada tem uma intensa orientação que é muito menor que 45°. 

= 


Os componentes do espectro da DFT determinam as 
amplitudes das senoides que se combinam para formar a 
imagem resultante. Em qualquer frequência dada na DFT 
de uma imagem, uma grande amplitude implica uma 
maior proeminência de uma senoide dessa frequência na 
imagem. Inversamente, uma pequena amplitude impli- 
ca que menos dessa senoide está presente na imagem. 
Apesar de, como mostra a Figura 4.26, a contribuição dos 
componentes de fase ser menos intuitiva, ela é tão impor- 
tante quanto o espectro. A fase é uma medida do desloca- 
mento das várias senoides em relação à sua origem. Dessa 
forma, apesar de a magnitude da DFT 2-D ser um arranjo 
matricial cujos componentes determinam as intensidades 
na imagem, a fase correspondente é um arranjo de ângu- 
los que apresentam grande parte das informações sobre a 
localização dos objetos discerníveis na imagem. O exem- 
plo a seguir esclarece esses conceitos. 


Exemplo 4.14 Ilustração das propriedades do espectro 


de Fourier e ângulo de fase. 


A Figura 4.27(b) é o ângulo de fase da DFT da Figura 
4.27(a). Não há detalhes nesse arranjo que nos levariam, 
por meio da análise visual, a associá-lo às características 
de sua imagem correspondente (nem mesmo a simetria do 
ângulo de fase é visível). Contudo, a importância da fase 
na determinação das características de formato é evidente na 
Figura 4.27(c), obtida pelo cálculo da DFT inversa da Equa- 
ção 4.6-15 utilizando apenas as informações de fase (isto 
é, com IF(u, v)l = 1 na equação). Apesar de as informações 
de intensidade terem sido perdidas (lembre-se de que as 
informações estão contidas no espectro), as principais carac- 


terísticas de forma dessa imagem são, sem a menor dúvida, 
provenientes da Figura 4.27(a). 


A Figura 4.27(d) foi obtida utilizando-se apenas o es- 
pectro da Equação 4.6-15 e calculando a DFT inversa. Isso 
significa definir o termo exponencial como igual a 1, o que, 
por sua vez, implica definir o ângulo de fase como igual a 
0. O resultado não surpreende. Ele contém apenas informa- 
ções de intensidade, com o termo dc sendo o mais dominante. 
Não há informações de forma na imagem porque a fase foi 
determinada como zero. 

Por fim, as figuras 4.27(e) e (f) mostram novamente a 
dominância da fase na determinação do conteúdo de atribu- 
tos de uma imagem. A Figura 4.27(e) foi obtida calculando 
a IDFT da Equação 4.6-15 utilizando o espectro do retân- 
gulo da Figura 4.24(a) e o ângulo de fase correspondente à 
imagem da mulher. A forma da mulher domina claramente 
esse resultado. Inversamente, o retângulo domina a Figura 
4.27(1), que foi calculada utilizando o espectro da mulher e 


o ângulo de fase do retângulo. 
E 


46.6 O teorema de convolução 2-D 


Estender a Equação 4.4-10 para duas variáveis re- 
sulta na seguinte expressão para a convolução circular 2-D: 


MA NA 


flx,y) hix, y)=) 9 flmnyhlx—m, y—n) (46-23) 

m=0 n=0 
parax=0,1,2,...,M—ley=0,1,2,...,N—1.Como 
na Equação 4.4-10, a Equação 4.6-23 nos dá um período 
de uma sequência periódica 2-D. O teorema da convolu- 
ção 2-D é dado pelas expressões 


fix, y) * A(x, y) & Flu, v)H(u, v) (4.6-24) 
e, inversamente, 
fix, y)h(x, y) & Flu, v) X H(u, v) (4.6-25) 


onde F e H são obtidos utilizando a Equação 4.5-15 e, 
como antes, a seta dupla é utilizada para indicar que os 
lados esquerdo e direito das expressões constituem um 
par de transformadas de Fourier. Nosso interesse no res- 
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Figura 4.27 (a) Mulher. (b) Ângulo de fase. (c) Mulher reconstruída utilizando apenas o ângulo de fase. (c) Mulher reconstruída utilizando ape- 
nas o espectro. (e) Reconstrução utilizando o ângulo de fase correspondente à mulher e o espectro correspondente ao retângulo da Figura 4.24(a). 


(f) Reconstrução utilizando a fase do retângulo e o espectro da mulher. 


tante deste capítulo está na Equação 4.6-24, que afir- 
ma que a DFT inversa do produto F(u, v)H(u, v) nos dá 
flx,y)%h (x,y), a convolução espacial 2-D de fe h. De forma 
similar, a DFT da convolução no domínio do espaço gera 
o produto das transformadas no domínio da frequên- 
cia. A Equação 4.6-24 é a base da filtragem linear e, como 
explicamos na Seção 4.7, é a base para todas as técnicas 
de filtragem discutidas neste capítulo. 


Como estamos lidando com valores discretos, o cál- 
culo das transformadas de Fourier é realizado com um 
algoritmo DFT.” Se escolhermos calcular a convolução 
espacial utilizando a IDFT do produto das duas transfor- 
madas, as questões de periodicidade discutidas na Seção 
4.6.3 devem ser levadas em consideração. Daremos um 
exemplo 1-D disso e, depois, estenderemos as conclusões 
para duas variáveis. A coluna da esquerda da Figura 4.28 
implementa a convolução de duas funções, fe h, utilizando 
o equivalente 1-D da Equação 3.4-2, que, pelo fato de as 
duas funções serem do mesmo tamanho, são escritas como 


399 


f(x) hx) =X fihx- m) 


Essa equação é idêntica à Equação 4.4-10, mas o 
requisito para o deslocamento x é que ele seja grande o su- 
ficiente para fazer com que a versão rotacionada de h se 
desloque passando completamente por f. Em outras pa- 
lavras, o procedimento consiste em (1) espelhamento de 


* Discutiremos formas eficientes para calcular a DFT na Seção 4.11. 


h em relação à origem (isto é, rotacioná-la 180º) [Figu- 
ra 4.28(c)], (2) translação da função espelhada por uma 
quantidade x [Figura 4.28(d)] e (3) para cada valor x da 
translação, o cálculo total da soma de produtos do lado di- 
reito da equação precedente. Em termos da Figura 4.28, 
isso significa multiplicar a função da Figura 4.28(a) pela 
função da Figura 4.28(d) para cada valor de x. O desloca- 
mento x abrange todos os valores necessários para deslocar 
completamente h por f. A Figura 4.28(e) mostra a convo- 
lução dessas duas funções. Note que a convolução é função 
da variável de deslocamento, x, e que o intervalo de x 
necessário nesse exemplo para deslocar A completamente 
por f vai de O a 799. 


Se utilizarmos a DFT e o teorema de convolução 
para obter o mesmo resultado que na coluna esquerda da 
Figura 4.28, devemos levar em consideração a periodici- 
dade inerente na expressão para a DFT. Isso equivale a con- 
voluir as duas funções periódicas nas figuras 4.28(f) e (g). 
O procedimento de convolução é igual ao que acabamos 
de discutir, mas as duas funções agora são periódicas. Pro- 
ceder com essas duas funções como no parágrafo anterior 
levaria ao resultado da Figura 4.28(j), que é obviamente 
incorreto. Como estamos convoluindo duas funções pe- 
riódicas, a convolução em si é periódica. A proximida- 
de dos períodos na Figura 4.28 é tal que eles interferem 
um no outro, provocando o que costuma ser chamado 
de erro de wraparound (efeito de borda). De acordo com o 
teorema da convolução, se tivermos calculado a DFT das 
duas funções de 400 pontos, fe h, multiplicado as duas 
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Figura 4.28 Coluna da esquerda: convolução de duas funções discretas obtidas utilizando a abordagem discutida na Seção 3.4.2. O resultado em 
(e) é correto. Coluna da direita: convolução das mesmas funções, mas levando em consideração a periodicidade decorrente da DFT. Observe em (j) 
como os dados de períodos adjacentes produzem o erro de wraparound, levando a um resultado incorreto de convolução. Para obter o resultado 


correto, a função deve ser preenchida. 


transformadas e depois calculado a DFT inversa, teremos 
obtido o segmento errôneo de 400 pontos da convolução 
mostrada na Figura 4.28(j). 


Felizmente, a solução para o problema do erro de 
wraparound é simples. Considere duas funções, f(x) e (x), 
compostas de amostras A e B, respectivamente. É possível 
demonstrar (Brigham, 1988) que, se acrescentarmos ze- 
ros às duas funções de forma que elas tenham o mesmo 
tamanho, expresso por P, o erro de wraparound é evitado 
escolhendo” 


Os zeros também podem ser acrescentados ao início das funções, 
ou podem ser divididos entre o começo e o fim das funções. É 
mais simples acrescentá-los no fim. 


P>A+B-1 (4.6-26) 


No nosso exemplo, cada função tem 400 pontos, 
de forma que o valor mínimo que poderíamos utilizar é 
P = 799, o que implica o acréscimo de 399 zeros ao fim 
de cada função. Esse processo é chamado de preenchi- 
mento com zeros (zero padding). A título de exercício, você 
pode demonstrar que, se os períodos das funções nas fi- 
guras 4.28(f) e (g) fossem expandidos acrescentando a 
cada período pelo menos 399 zeros, o resultado seria uma 
convolução periódica na qual cada período seria idêntico 
ao resultado correto da Figura 4.28(e). Utilizar a DFT por 
meio do teorema da convolução resultaria em uma fun- 
ção no domínio do espaço de 799 pontos idêntica à Figura 
4.28(e). A conclusão, portanto, é que, para obter o mesmo 


resultado de convolução entre a representação “direta” 
pelo método da equação de convolução apresentado no 
Capítulo 3 e pelo método da DFT, as funções pelo último 
método devem ser preenchidas antes do cálculo de suas 
transformadas. 


Seria mais difícil visualizar um exemplo similar em 
duas dimensões, mas chegaríamos à mesma conclusão em 
relação ao erro de wraparound e à necessidade de preen- 
cher as funções com zeros. Suponha dois arranjos de 
imagem f(x, y) e h(x, y) de tamanhos A x Be C x D pixels, 
respectivamente. O erro de wraparound em sua convolu- 
ção circular pode ser evitado preenchendo essas funções 
com zeros, como se segue: 


ah f(x,y) O<x<A-1l e O<y<B-1 
X, = 
mee Jo A<x<P ou B<y<Q 
(4.6-27) 
e 
hix,y) O<x<C-le 0<y<D-1 
h (x,y) = 
0 C<x<P ou D<y<Q 
(4.6-28) 
com 
P>A+C-1 (4.6-29) 
e 
Q>B+D-1 (4.6-30) 


As imagens preenchidas resultantes são de tamanho 
P x Q. Se os dois arranjos matriciais forem do mesmo ta- 
manho, M x N, precisamos que 


P>2M-1 (4.6-31) 


Q>2N-1 (4.6-32) 


Damos um exemplo na Seção 4.7.2 mostrando os 
efeitos do erro de wraparound em imagens. Como uma re- 
gra, algoritmos DFT tendem a executar mais rapidamente 
com arranjos de tamanho par, de forma que se costuma 
selecionar P e Q como os menores números inteiros pares 
que satisfaçam as equações anteriores. Se os dois arranjos 
forem do mesmo tamanho, isso significa que P e Q são 
selecionados como o dobro do tamanho do arranjo. 


As duas funções das figuras 4.28(a) e (b) conve- 
nientemente se tornam zero antes do fim do intervalo 
de amostragem. Se uma função ou as duas funções não 
forem zero no final do intervalo, uma descontinuidade 
seria criada quando zeros forem acrescentados à função 
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para eliminar o erro de wraparound. Isso é análogo a mul- 
tiplicar uma função por uma função retangular (box func- 
tion), que, no domínio da frequência, implicaria a convo- 
lução da transformada original com uma função sinc (veja 
o Exemplo 4.1). Isso, por sua vez, criaria o chamado espa- 
lhamento de frequência (leakage), provocado pelos compo- 
nentes de alta frequência da função sinc. O espalhamento 
produz um efeito serrilhado nas imagens. Apesar de o 
espalhamento nunca poder ser totalmente eliminado, 
ele pode ser significativamente reduzido multiplicando 
a função amostrada por outra função que diminui sua- 
vemente até próximo de zero nas duas extremidades da 
função amostrada para atenuar as transições abruptas (e, 
portanto, os componentes de alta frequência) da função 
retangular. Essa abordagem, chamada de janelamento ou 
apodização, é uma importante opção quando se deseja a 
fidelidade da reconstrução da imagem (como em gráficos 
de alta definição) .” Se você estiver diante da necessidade de 
realizar esse janelamento, uma boa metodologia é utili- 
zar uma função gaussiana 2-D (veja a Seção 4.8.3). Uma 
vantagem dessa função é que sua transformada de Fourier 
também é gaussiana, produzindo, dessa forma, pouco es- 
palhamento de frequência. 


46.7 Resumo das propriedades da transformada 
discreta de Fourier 2-D 


A Tabela 4.2 resume as principais definições de 
DFT apresentadas neste capítulo. A separabilidade é dis- 
cutida na Seção 4.11.1 e a obtenção da transformada 
inversa utilizando um algoritmo de transformada direta 
é discutida na Seção 4.11.2. A correlação é discutida no 
Capítulo 12. 


A Tabela 4.3 resume alguns importantes pares de 
DFTs. Apesar do nosso foco estar em funções discretas, 
as duas últimas entradas da tabela são pares de transfor- 
madas de Fourier que podem ser deduzidos somente para 
variáveis contínuas (observe a utilização da notação de va- 
riáveis contínuas). Nós as incluímos aqui porque, com uma 
interpretação adequada, elas são bastante úteis no proces- 
samento digital de imagens. O par de diferenciação pode 
ser utilizado para deduzir o equivalente no domínio de 
frequência do laplaciano definido na Equação 3.6-3 (Exer- 
cício 4.26). O par gaussiano é discutido na Seção 4.7.4. 


* Uma função simples de apodização é um triângulo, centralizado 
na amostra de dados, que diminuiu até O em ambas as extremi- 
dades da amostra. Isso é chamado de janela de Bartlett. Outras 
janelas comuns são a de Hamming e a de Hann. Podemos até mes- 
mo utilizar uma função gaussiana. Retomaremos a questão do 
janelamento na Seção 5.11.5. 
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Tabela 4.2 Resumo das definições de DFT e expressões correspondentes. 


Nome Expressão(ões) 
M—1 N— E i N 
1. Transformada discreta de Fourier (DFT) de f(x, y) Flu,v)= SF nile ene 
x=0 y=0 
1S j2mlux/M--vy/N) 
2. Transformada discreta de Fourier inversa (IDFT) de Flu, v) fx, y= PU vie 
u=0 v=0 


co 


. Representação polar 


Flu, v) = |F(u, v)| es”) 


[Flu v)| = [Re(u, v) + Pu)? 


4. Espect 
Ro R= Real(F); I= Im(F) 
Â -1| u,v) 
5. Angulo de fase olu,v) = tg 
Rlu,v) 


6. Espectro de potência 


Plu,v)=|Flu, v) 


7. Valor médio 


Flu, v) = F(u + k M, v) = Flu, v +kN) 


8. Periodicidade (k, e k, são inteiros) = lu + kM v+ KN) 
fix y) = flx+k M, y)= flx y+ kN) 
= fix kM, y+ kM 
MA NA 
9. Convolução F(x, ylxhtx,y)= Hm,nhix—m,y —n) 
m=0 n=0 
MA NA 
10. Correlação flx y)*A(x,y)= f*(m,n)A(x +m,y +n) 
m=0 n=0 


11. Separabilidade 


A DFT 2-D pode ser deduzida calculando as transformadas DFT 1-D 
ao longo das colunas (ou linhas) da imagem, seguidas das trans- 
formadas 1-D ao longo das linhas (ou colunas) do resultado. Veja a 
Seção 4.11.1. 


12. Obtenção da transformada inversa de Fourier utilizando algo- 


ritmo de transformada direta 


MA NA 
MNE * (x, y Sy rive 


u=0 v=0 


Essa equação indica que aplicar F*(u, v) a um algoritmo que calcula 
a transformada direta (lado direito da equação anterior) resulta em 
MNf*\x, y). Dividir o conjugado complexo por MN resulta na inversa 
desejada. Veja a Seção 4.11.2. 


Filtragem no domínio da frequência 165 


Tabela 4.3 Resumo dos pares de DFT. As expressões na forma fechada em 12 e 13 são válidas somente para variáveis contínuas. Elas podem 
ser utilizadas com variáveis discretas por meio da amostragem das expressões contínuas na forma fechada. 


Nome 


1. Propriedades de simetria 


Pares de DFT 


Veja a Tabela 4.1 


2. Linearidade 


aílx, y) + bfx, y) & aF (u, v) + bE (u, v) 


3. Translação (geral) 


j2n(uOx/M + vOyIN) = = 
fix, peito és Fly — u, v — vo) 


fly — XV y) + Flu, v) giw IM+ vy2 /N) 


4. Translação ao centro do retângulo de frequência, 
(M/2, N/2) 


flx Me Flu — Mv — N/2] 
F(x MPB, y — N/2) <> Flu, fp 


5. Rotação 


f(r, +0) + Flos, p +6) 


x=rcos) y=rsenð u=wcosp v=w seng 


aereas 


6. Teorema de convolução 


7. Teorema de correlação 


fx WAX, y) + Flu, v)H (u, v) 
f(x, y) hix y) <> Flu, v)X Hu, v) 
f(x, y)eehlx, y) & Fu, v)H lu, v) 
F(x y) h(x y) & Flu, v) x Hu, v) 


8. Impulso unitário discreto 


ê(xy)e1 


sen({rua) sen(zvb) g- inluat) 


â rectla, b] = ab 
9. Retângulo la, b] (mua) (mb) 
sen(2ru,x+ 27v,y) 
10. Seno i 
jzlóu + Mus, + Nvo) — ólu — Mug, v — Nvç)] 
cos(2ru x+ 27v y) <> 
11. Cosseno 


slau + Muy.v + Nvo) + 6lu—Mu,,v —Ny,)| 


Os pares de transformadas de Fourier a seguir só são deduzidos para as variáveis contínuas, expressas, como antes, por te z para variáveis 
espaciais e por ue v para variáveis de frequência. Esses resultados podem ser utilizados para trabalhar com as DFT por meio da amostragem 


das formas contínuas. 


12. Diferenciação (as expressões à direita presumem que 
(too too) = 0.) 


E E F(t,2) & (27) (j2mv)" Flv) 


9" flt,z) 
ot” 


O"t (t,z) 
Oz" 


= (j27p)" Flu); 


<=> (j2mv)’ Hu,v) 


13. Gaussiana 


Corta ETET E, P 
Anote o E+) 2x Ag lt V?” (A é uma constante) 


* Presume-se que as funções foram expandidas pelo preenchimento por zeros. A convolução e a correlação são associativas, comutativas e 


distributivas. 
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As tabelas 4.1 a 4.3 apresentam um resumo das pro- 
priedades, úteis para trabalhar com a DFT. Muitas delas 
são elementos-chave no desenvolvimento do material no 
restante deste capítulo e algumas são utilizadas em capí- 
tulos subsequentes. 


4.7 Os fundamentos da filtragem no 
domínio da frequência 


Nesta seção, apresentaremos os fundamentos para 
todas as técnicas de filtragem discutidas no restante do 
capítulo. 


4.11 Características adicionais do domínio da 

frequência 

Começamos observando na Equação 4.5-15 que 
cada termo de F(u, v) contém todos os valores de f(x, y), 
modificados pelos valores dos termos exponenciais. Des- 
sa forma, exceto em casos triviais, em geral costuma ser 
impossível fazer associações diretas entre componentes 
específicos de uma imagem e sua transformada. No en- 
tanto, é possível fazer algumas afirmações gerais sobre o 
relacionamento entre os componentes de frequência da 
transformada de Fourier e os aspectos espaciais de uma 
imagem. Por exemplo, como a frequência é diretamen- 
te relacionada a taxas espaciais de variação, não é difícil 
associar intuitivamente frequências na transformada de 
Fourier com padrões de variações de intensidade em uma 
imagem. Mostramos na Seção 4.6.5 que o componente de 
frequência de variação mais lenta (u = v = 0) é proporcio- 
nal à intensidade média de uma imagem. À medida que 
nos distanciamos da origem da transformada, as baixas 
frequências correspondem aos componentes de intensi- 
dade de variação lenta em uma imagem. Em uma imagem 
de uma sala, por exemplo, isso poderia corresponder a 
variações suaves de intensidade nas paredes e no piso. 
À medida que nos distanciamos da origem, as frequên- 


A) 


Figura 4.29 


cias mais altas começam a corresponder a variações de in- 
tensidade cada vez mais rápidas na imagem. Essas são as 
bordas de objetos e outros componentes de uma imagem 
caracterizados por mudanças abruptas de intensidade. 


As técnicas de filtragem no domínio da frequência 
se baseiam na modificação da transformada de Fourier 
para atingir um objetivo específico e calcular a DFT in- 
versa para retornar ao domínio da imagem, como vimos 
na Seção 2.6.7. Segue-se da Equação 4.6-15 que os dois 
componentes da transformada aos quais temos acesso 
são a magnitude (espectro) e o ângulo de fase. A Seção 
4.6.5 abordou as propriedades básicas desses dois com- 
ponentes da transformada. Vimos que a análise visual do 
componente de fase em geral não é muito útil. O espec- 
tro, contudo, proporciona algumas informações úteis a 
respeito das características gerais da imagem a partir das 
quais o espectro foi gerado. Vejamos, por exemplo, a Fi- 
gura 4.29 (a), uma imagem de um circuito integrado obti- 
da por um microscópio eletrônico de varredura, ampliada 
aproximadamente 2.500 vezes. Sem mencionar a interes- 
sante construção do próprio dispositivo, observamos duas 
características principais: bordas fortes em um ângulo de 
aproximadamente 45° e duas protuberâncias brancas 
de um óxido, resultantes de uma falha induzida termi- 
camente. O espectro de Fourier na Figura 4.29(b) mos- 
tra componentes proeminentes ao longo das direções 45° 
que correspondem às bordas que acabamos de mencionar. 
Olhando com atenção ao longo do eixo vertical, vemos um 
componente vertical que está ligeiramente inclinado para 
a esquerda em relação ao eixo. Esse componente foi cau- 
sado pelas bordas das protuberâncias causadas pelo óxido. 
Observe como o ângulo do componente de frequência 
em relação ao eixo vertical corresponde à inclinação (com 
relação ao eixo horizontal) do longo elemento branco, e 
observe também os zeros no componente vertical de fre- 
quência, correspondente à extensão vertical estreita das 
protuberâncias do óxido. 


(a) Inagem de um circuito integrado danificado obtida com um microscópio eletrônico de varredura. (b) Espectro de Fourier de (a). 


(Imagem original: cortesia do Dr. J. M. Hudak, Instituto Brockhouse para Materiais de Pesquisa, Universidade McMaster, Hamilton, Ontário, Canadá.) 


Isso corresponde aos tipos comuns de associações que 
podem ser feitas em geral entre os domínios da frequência 
e do espaço. Como veremos mais adiante neste capítu- 
lo, até mesmo esses tipos de associações gerais, aliados 
aos relacionamentos mencionados anteriormente entre o 
conteúdo de frequência e a taxa de variação dos níveis de 
intensidade de uma imagem, podem levar a alguns re- 
sultados muito úteis. Na próxima seção, mostraremos os 
efeitos das modificações de vários intervalos de frequência 
na transformada da Figura 4.29(a). 


4.7.2 Fundamentos da filtragem do dominio da 

frequência 

A filtragem no domínio da frequência consiste em 
modificar a transformada de Fourier de uma imagem e 
depois calcular a transformada inversa para obter o resul- 
tado processado. Dessa forma, dada uma imagem digital, 
fix, y), de tamanho M x N, a equação básica de filtragem 
na qual estamos interessados tem a seguinte forma:” 


g(x, y) = 3º! [H(u, v)F (u, v)] (4.7-1) 


na qual S~! é a IDFT, F(u, v) é a DFT da imagem de entra- 
da, f(x, y), H(u, v) é uma função filtro (também chamada 
apenas de filtro ou de função de transferência de filtro) e g(x, y) 
é a imagem filtrada (de saída). As funções F, H e g são 
arranjos de tamanho M x N, o mesmo que a imagem de 
entrada. O produto H(u, v)F(u, v) é formado utilizando 
a multiplicação de arranjos matriciais, como definido na 
Seção 2.6.1. A função filtro modifica a transformada da 
imagem de entrada para gerar uma saída processada, 
g(x, y). A especificação de H(u, v) é consideravelmen- 
te simplificada utilizando funções simétricas em relação 
ao centro, o que requer que F(u, v) também seja cen- 
tralizada. Como explicamos na Seção 4.6.3, isso é feito 
multiplicando a imagem de entrada por (—1)**” antes de 
calcular sua transformada.” 


Se H for real e simétrico e ffor real (como costuma ser o caso), 
então a IDFT na Equação 4.7-1 deve, teoricamente, gerar valores 
reais. Na prática, o inverso geralmente contém termos complexos 
parasitas, resultantes do arredondamento e outras imprecisões do 
cálculo computacional. Dessa forma, costuma-se utilizar a parte 
real da IDFT para formar g. 


* Muitas implementações computacionais da DFT 2-D (por exem- 
plo, o Matlab) não centralizam a transformada. Isso implica que 
as funções-filtro devem ser organizadas para corresponder ao 
mesmo formato de dados que a transformada não centralizada 
(isto é, com a origem no canto superior esquerdo). O resultado 
final é que é mais difícil gerar e exibir os filtros. Utilizamos a 
centralização nas nossas discussões para ajudar na visualização, o 
que é crucial no desenvolvimento de uma boa compreensão dos 
conceitos de filtragem. Os dois métodos podem ser utilizados na 
prática, contanto que a coerência seja mantida. 
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Agora podemos analisar o processo de filtragem em 
mais detalhes. Um dos filtros mais simples que podemos 
construir é um filtro H(u, v) que é O no centro da transfor- 
mada e 1 em todos os outros pontos. Esse filtro rejeitaria 
o termo dc e “passaria” (isto é, deixaria inalterados) todos 
os outros termos de F(u, v) quando formamos o produto 
H(u, v)F(u, v). Sabemos, com base na Equação 4.6-21, 
que o termo dc é responsável pela intensidade média de 
uma imagem, de forma que multiplicá-lo por zero redu- 
zirá a intensidade média da imagem de saída a zero. A 
Figura 4.30 mostra o resultado dessa operação utilizando 
a Equação 4.7-1. Como esperado, a imagem ficou muito 
mais escura. (Uma média zero implica a existência de in- 
tensidades negativas. Portanto, apesar de ilustrar o prin- 
cípio, a Figura 4.30 não é uma verdadeira representação 
da original, já que todas as intensidades negativas são re- 
cortadas (definidas como 0) para fins de exibição.) 


Como observamos anteriormente, baixas frequên- 
cias na transformada são relacionadas a componentes de 
intensidade de variação lenta (suave) de uma imagem, 
como as paredes de uma sala ou um céu sem nuvens em 
uma cena externa. Por outro lado, altas frequências são 
causadas por transições abruptas de intensidade, como 
bordas e ruídos. Dessa forma, esperaríamos que um filtro 
H(u, v) que atenua altas frequências enquanto passa baixas 
frequências (apropriadamente chamado filtro passa-baixa) 
borraria uma imagem, ao passo que um filtro com a pro- 
priedade oposta (chamado filtro passa-alta) realçaria deta- 
lhes abruptos, mas provocaria uma redução no contraste 
da imagem. A Figura 4.31 ilustra esses efeitos. Observe 
a semelhança entre as Figuras 4.30 e 4.31(e). A razão é 
que o filtro passa-alta mostrado elimina o termo dc, re- 
sultando no mesmo efeito básico que levou à Figura 4.30. 
Adicionar uma pequena constante ao filtro não afeta sig- 
nificativamente o aguçamento, mas impede a eliminação 


Figura 4.30 Resultado da filtragem da imagem da Figura 4.29(a) ze- 
rando o termo F(M/2, N/2) na transformada de Fourier. 
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Figura 4.31 
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Linha superior: filtros no domínio da frequência. Linha inferior: imagens filtradas correspondentes obtidas com a aplicação da 


Equação 4.7-1. Utilizamos a = 0,85 em (c) para obter (f) (a altura do filtro é 1). Compare (f) com a Figura 4.29(a). 


do termo dc e, dessa forma, preserva a tonalidade, como 
mostra a Figura 4.31 (f). 


A Equação 4.7-1 envolve o produto de duas funções 
no domínio da frequência que, pelo teorema da convo- 
lução, implica a convolução no domínio do espaço. Sa- 
bemos, com base na análise da Seção 4.6.6, que, se as 
funções em questão não forem preenchidas, podemos es- 
perar a ocorrência do erro de wraparound. Vejamos o que 
acontece quando aplicamos a Equação 4.7-1 sem preen- 
chimento. A Figura 4.32(a) mostra uma imagem simples, 
e a Figura 4.32(b) é o resultado da filtragem passa-baixa 
da imagem com um filtro passa-baixa gaussiano da forma 
mostrada na Figura 4.31(a). Como esperado, a imagem 
é borrada. No entanto, o borramento não é uniforme; 
a borda branca superior é borrada, mas as bordas bran- 
cas laterais não são. Preencher a imagem de entrada de 
acordo com as equações 4.6-31 e 4.6-32 antes de apli- 
car a Equação 4.7-1 resulta na imagem filtrada da Figura 
4.32(c). Esse resultado é o que esperávamos. 


A Figura 4.33 ilustra a razão para a discrepância 
entre as figuras 4.32(b) e (c). As áreas tracejadas da Fi- 
gura 4.33 correspondem à imagem da Figura 4.32(a). A 
Figura 4.33(a) mostra a periodicidade implícita na utili- 
zação da DFT, como explicamos na Seção 4.6.3. Imagine 
convoluir a representação espacial do filtro de borramento 
com essa imagem. Quando o filtro está passando por cima 
da imagem tracejada, ele engloba parte da imagem assim 


como também parte da região inferior da imagem perió- 
dica imediatamente acima dele. Quando o filtro passa por 
uma região escura e uma clara, o resultado é uma saída 
cinza-médio, borrada. No entanto, quando o filtro passa 
pela lateral superior direita da imagem, o filtro engloba 
apenas áreas claras da imagem e de seu vizinho à direita. 
A média de uma constante é a mesma constante, de forma 
que a filtragem não terá efeito algum nessa área, gerando o 
resultado da Figura 4.32(b). O preenchimento da imagem 
com zeros cria um contorno uniforme ao redor da sequên- 
cia periódica, como mostra a Figura 4.33(b). Convoluir a 
função de borramento com o “mosaico” preenchido da Fi- 
gura 4.33(b) leva ao resultado correto da Figura 4.32(c). 
Podemos ver nesse exemplo que deixar de preencher uma 
imagem pode levar a resultados errôneos. Se a filtragem 
for realizada só para fins de análise visual aproximada, o 
passo de preenchimento pode ser pulado. 


Até agora, a discussão se concentrou no preenchimen- 
to da imagem de entrada, mas a Equação 4.7-1 também 
envolve um filtro que pode ser especificado tanto no do- 
mínio do espaço como no da frequência. No entanto, o 
preenchimento é realizado no domínio do espaço, o que 
levanta uma importante questão sobre o relacionamento 
entre o preenchimento espacial e os filtros especificados 
diretamente no domínio da frequência. 


À primeira vista, seria possível concluir que a me- 
lhor maneira de lidar com o preenchimento de um filtro 
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Figura 4.32 


(a) Imagem simples. (b) Resultado do borramento com um filtro passa-baixa gaussiano sem o preenchimento. (c) Resultado da 


filtragem passa-baixa com o preenchimento. Compare a área clara das bordas laterais em (b) e (c). 


de domínio da frequência é construir o filtro que seja do 
mesmo tamanho que a imagem, calcular a IDFT do fil- 
tro para obter o filtro espacial correspondente, preencher 
esse filtro no domínio do espaço, e depois, calcular sua 
DFT para retornar ao domínio da frequência. O exemplo 
1-D da Figura 4.34 ilustra os problemas dessa aborda- 
gem. A Figura 4.34(a) mostra um filtro passa-baixa 1-D 
ideal no domínio da frequência. O filtro é real e tem 
simetria par, então sabemos, com base na propriedade 
8 da Tabela 4.1, que sua IDFT também será real e simé- 
trica. A Figura 4.34(b) mostra o resultado de multiplicar 
os elementos do filtro no dominio da frequência por (— 1)” 
e calcular sua IDFT para obter o filtro espacial correspon- 
dente. Os extremos dessa função espacial não são zero; 
então, como mostra a Figura 4.34(c), o preenchimento da 
função com zeros cria duas descontinuidades (preencher 
as duas extremidades da função é o mesmo que preen- 
cher uma extremidade, contanto que o número total de 
zeros utilizado seja igual). 


Para voltar ao domínio da frequência, calculamos 
a DFT do filtro preenchido no domínio espacial. A Fi- 
gura 4.34(d) mostra o resultado. As descontinuidades 
no filtro espacial criaram o efeito de ringing (ondulações 
em forma de anel) em seu equivalente no domínio da 
frequência, como esperado pelos resultados no Exem- 
plo 4.1. Visto de outra forma, sabemos com base nesse 
exemplo que a transformada de Fourier de uma função 
retangular é uma função sinc com componentes de fre- 
quência se estendendo ao infinito, e devemos esperar 
o mesmo comportamento da transformada inversa de 
uma função retangular. Em outras palavras, a represen- 
tação espacial de um filtro ideal’ (box) no domínio da 
frequência tem componentes que se estendem ao infi- 
nito. Dessa forma, qualquer truncamento do filtro no 
domínio do espaço para implementar o preenchimento 
com zeros apresentará descontinuidades, o que, em geral, 
resultará, no efeito de ringing no domínio da frequência 


Figura 4.33 Periodicidade inerente às imagens 2-D na utilização da DFT. (a) Periodicidade sem o preenchimento da imagem. (b) Periodicidade 
após o preenchimento com zeros (preto). As áreas tracejadas no centro correspondem a imagem da Figura 4.32(a). (As linhas brancas finas nas 
duas imagens são sobrepostas para fins de clareza e não fazem parte dos dados.) 


* Veja a definição de um filtro ideal no final da Seção 4.3.3. 
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(a) Filtro original especificado no domínio da frequência (centralizado). (b) Representação espacial obtida pelo cálculo da IDFT 


de (a). (c) Resultado do preenchimento (b) para o dobro de seu tamanho (observe as descontinuidades). (d) Filtro correspondente no domínio da 
frequência obtido pelo cálculo da DFT de (c). Observe o efeito de ringing (ondulações em forma de anel) causado pelas descontinuidades em (c). 
(As curvas parecem ser contínuas porque os pontos foram unidos para simplificar a análise visual.) 


(o truncamento pode ser evitado neste caso se realiza- 
do nos cruzamentos por zero, mas estamos interessados 
aqui em procedimentos gerais, e nem todos os filtros 
têm cruzamentos por zero). 


O que os resultados anteriores nos informam é que, 
como não temos como trabalhar com um número infinito 
de componentes, não podemos utilizar um filtro ideal no 
domínio da frequência (como na Figura 4.34(a)) e simul- 
taneamente utilizar o preenchimento com zeros para evi- 
tar o erro de wraparound. É preciso decidir qual limitação 
aceitar. Nosso objetivo é trabalhar com formatos especi- 
fico de filtros no domínio da frequência (incluindo filtros 
ideais) sem ter de nos preocupar com questões de trun- 
camento. Uma abordagem é preencher as imagens com 
zeros e criar filtros no domínio da frequência para serem 
do mesmo tamanho que as imagens preenchidas (lembre 
que imagens e filtros devem ser do mesmo tamanho ao 
utilizar a DFT). Isso, é claro, resultará em erro de wra- 
paround porque nenhum preenchimento é utilizado para 
o filtro, mas, na prática, esse erro é significativamente 
reduzido pela separação proporcionada pelo preenchi- 


mento da imagem, e é preferível ao ringing. Filtros de 
suavização (como os da Figura 4.31) ainda apresentam 
menos problemas. Mais especificamente, então, a abor- 
dagem que seguiremos neste capítulo para trabalhar com 
filtros de um formato especificado diretamente no domí- 
nio da frequência é preencher imagens até o tamanho 
Px Q e construir filtros das mesmas dimensões. Como 
explicamos anteriormente, P e Q são determinados pelas 
equações 4.6-29 e 4.6-30. 


Concluímos esta seção analisando o ângulo de fase 
da transformada filtrada. Como a DFT é um arranjo com- 
plexo, podemos expressá-la em termos de suas partes real 
e imaginária: 

F(u, v) = R(u, v) + jI(u, v) (4.7-2) 
A Equação 4.7-1, então, se torna 


g(x y) = S7 [H(u, v)R(u, v) + jH(u, v)I(u, v)] (4.7-3) 


O ângulo de fase não é alterado pela filtragem da 
forma como acabamos de descrever porque H(u, v) é can- 
celado quando a razão entre as partes imaginária e real é 


formada na Equação 4.6-17. Os filtros que afetam igual- 
mente as partes real e imaginária e, portanto, não têm 
efeito algum sobre a fase, são apropriadamente chamados 
de filtros de deslocamento de fase zero. Esses são os únicos 
tipos de filtros analisados neste capítulo. 


Até mesmo pequenas mudanças no ângulo de fase 
podem ter efeitos dramáticos (normalmente indesejados) 
sobre o resultado filtrado. A Figura 4.35 ilustra o efeito de 
algo tão simples quanto uma variação escalar. A Figura 
4.35 mostra uma imagem resultante da multiplicação do 
arranjo com os ângulos de fase na Equação 4.6-15 por 
0,5, sem alterar IF(u, v)|, seguida do cálculo da IDFT. Os 
formatos permanecem inalterados, mas a distribuição de 
intensidade é bastante distorcida. A Figura 4.35(b) mostra 
o resultado de se multiplicar a fase por 0,25. A imagem é 
quase irreconhecível. 


4.73 Resumo dos passos da filtragem no domínio 
da frequência 


O conteúdo das duas seções anteriores pode ser re- 
sumido como segue: 


1. Dada uma imagem de entrada f(x, y) de tamanho 
M x N, obtenha os parâmetros de preenchimento P 
e Qa partir das equações 4.6-31 e 4.6-32. Normal- 
mente, optamos por P= 2M e Q = 2N. 

2. Construa uma imagem preenchida, l (x, y), de ta- 
manho P x Q, acrescentando o número necessário 
de zeros em f(x, y). 


3. Multiplique f (x, y) por (—1)*” para centralizar sua 
transformada.” 
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4. Calcule a DFT, F(u, v), da imagem do passo 3. 


5. Gere uma função filtro real e simétrica, H(u, v), de ta- 
manho P x Q com centro nas coordenadas (P/2,0/2) * 
Calcule o produto G(u, v) = H(u, v)F(u, v) utilizando 
a multiplicação de arranjo matricial; isto é, G(i, k) = 
H(i, k)F(i, k). 

6. Obtenha a imagem processada: 


g% y) = {real[S™ [G(w, v)]]}(-1)"" 


na qual a parte real é selecionada para eliminar 
os componentes complexos parasitas resultantes de 
imprecisões nos cálculos e o subscrito p indica que 
estamos lidando com arranjos preenchidos. 


7. Obtenha o resultado processado final, g(x, y), extrain- 
do a região M x N do quadrante superior esquerdo de 

9,(X, Y). 

A Figura 4.36 ilustra os passos descritos anterior- 
mente. A legenda da figura explica a fonte de cada imagem. 
Se fosse ampliada, a Figura 4.36(c) mostraria pontos pretos 
intercalados na imagem porque as intensidades negativas 
sao recortadas e definidas como nivel zero para fins de 
exibição. Observe, na Figura 4.36(h), o contorno escuro 
característico exibido nas imagens filtradas pelo filtro passa- 
baixa utilizando o preenchimento com zeros. 


4.74 Correspondência entre a filtragem no domínio 
do espaço e da frequência 
A relação entre a filtragem no domínio do espaço e 
da frequência é o teorema de convolução. Na Seção 4.7.2, 
definimos a filtragem no domínio da frequência como a 


Figura 4.35 


(a) Imagem resultante da multiplicação por 0,5 do ângulo de fase na Equação 4.6-15, seguido do cálculo da IDFT. (b) O resultado 


da multiplicação da fase por 0,25. O espectro não foi alterado em nenhum dos dois casos. 


* Como observamos anteriormente, a centralização ajuda na visualização do processo de filtragem e na geração do próprio filtro, mas não é 


um requisito fundamental. 


“ Para calcular H(u, v) a partir de um determinado filtro espacial, A(x, y), preenchemos o filtro no dominio do espaço até o tamanho P x Q, 
multiplicamos a arranjo expandido pot (—1)**”, e calculamos a DFT do resultado para obter um H(u,v) centralizado. O Exemplo 4.15 


ilustra esse procedimento. 
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Figura 4.36 (a) Imagem Mx N, f. (b) Imagem preenchida, f, de tamanho Px Q. (c) Resultado da multiplicação de f, por (-1)*”. (d) Espectro de 
F . (e) Filtro passa-baixa gaussiano centralizado, H, de tamanho Px Q. (f) Espectro do produto HF, (g) gp O produto de (—1}*” com a parte real da 
IDFT de HF, (h) Resultado final, g, obtido pelo recorte das primeiras M linhas e N colunas de 9 


multiplicação de uma função filtro, H(u, v), por F(u, v), 
a transformada de Fourier da imagem de entrada. Dado 
um filtro H(u, v), suponha que queiramos descobrir sua 
representação equivalente no domínio do espaço. Com 
fix, y) = 6(x, y), segue-se da Tabela 4.3 que F(u, v) = 1. En- 
tão, a partir da Equação 4.7-1, a saída filtrada é 3! [H(u, v)}. 
Mas essa é a transformada inversa do filtro no domínio da 
frequência, que é o filtro correspondente no domínio do es- 
paço. Inversamente, segue-se de uma análise similar e do 
teorema da convolução que, dado um filtro no domínio 
do espaço, obtemos sua representação no domínio da fre- 
quência calculando sua transformada de Fourier. 


Dessa forma, os dois filtros formam um par de trans- 
formadas de Fourier: 


h(x y) & H(u, v) (4.7-4) 


sendo h(x, y) um filtro espacial. Como esse filtro pode 
ser obtido a partir da resposta de um filtro no domínio 
da frequência a um impulso, h(x, y), algumas vezes ele 
é chamado de resposta ao impulso de H(u, v). Além disso, 
como todos os valores de uma implementação discreta da 


Equação 4.7-4 são finitos, esses filtros são chamados de 
filtros de resposta ao impulso finita (FIR, de finite impulse res- 
ponse). Esses são os únicos tipos de filtros espaciais linea- 
res analisados neste livro. 


Apresentamos a convolução espacial na Seção 3.4.1 
e analisamos sua implementação em relação à Equação 
3.4-2, o que envolveu a convolução de funções de dife- 
rentes tamanhos. Quando falamos de convolução espacial 
em termos do teorema da convolução e da DFT, está 
implícito que estamos convoluindo funções periódicas, 
como explicado na Figura 4.28. Por esse motivo, como 
explicamos anteriormente, a Equação 4.6-23 é chamada 
de convolução circular. Além disso, a convolução no con- 
texto da DFT envolve funções do mesmo tamanho, ao 
passo que, na Equação 3.4-2, as funções normalmente 
são de tamanhos diferentes. 


Na prática, preferimos implementar a filtragem de 
convolução utilizando a Equação 3.4-2 com pequenas 
máscaras de filtragem em virtude da velocidade e da fa- 
cilidade de implementação em hardware e/ou firmware. 
Entretanto, os conceitos de filtragem são mais intuitivos 


no domínio da frequência. Uma forma de nos aprovei- 
tarmos das propriedades dos dois domínios é especificar 
um filtro no domínio da frequência, calcular sua IDFT 
e depois utilizar o filtro espacial de tamanho integral 
resultante como um guia para construir máscaras espa- 
ciais menores (métodos mais formais são mencionados 
na Seção 4.11.4). Isso será ilustrado em seguida. Mais 
adiante, também ilustraremos o inverso, no qual temos 
um pequeno filtro espacial e cuja representação de ta- 
manho integral obteremos no domínio da frequência. 
Essa abordagem é útil para analisar o comportamento 
de pequenos filtros espaciais no domínio da frequência. 
Tenha em mente, durante a análise a seguir, que a trans- 
formada de Fourier e sua inversa são processos lineares 
(Exercício 4.14), de forma que a discussão se limite à 
filtragem linear. 


Na discussão a seguir, utilizaremos filtros gaussianos 
para ilustrar como os filtros no domínio da frequência 
podem ser utilizados para orientar a especificação dos 
coeficientes de algumas das pequenas máscaras discutidas 
no Capítulo 3. Os filtros baseados em funções gaussianas 
são de particular interesse porque, como observamos na 
Tabela 4.3, tanto a transformada de Fourier direta quanto 
a inversa de uma função gaussiana são funções gaussia- 
nas reais. Limitamos a discussão para 1-D para ilustrar os 
princípios básicos. Os filtros gaussianos 2-D serão discuti- 
dos mais adiante neste capítulo. 


Com H(u) expressando o filtro gaussiano 1-D no 
domínio da frequência, temos: 


H(u)= Ae PS (4.7-5) 


sendo o o desvio padrão da curva gaussiana. O filtro cor- 
respondente no domínio do espaço é obtido calculando a 
transformada inversa de Fourier de H(u) (Exercício 4.31): 


h(x) = V2m0 Ae"? (4.7-6) 


Essas equações” são importantes por duas razões: (1) 
Elas constituem um par de transformadas de Fourier, e os 
dois componentes são gaussianos e reais. Isso facilita a aná- 
lise porque não precisamos nos preocupar com números 
complexos. Além disso, as curvas gaussianas são intuiti- 
vas e de fácil manipulação. (2) As funções se comportam 
reciprocamente. Quando H(u) apresenta um perfil aberto 
(valor alto de 0), h(x) tem um perfil fechado e vice-versa. 


Como mencionamos na Tabela 4.3, as formas fechadas para as 
tranformadas diretas e inversa de Fourier de uma gaussiana são 
válidas somente para funções contínuas. Para utilizar formula- 
ções discretas, simplismente amostramos as transformadas gaus- 
sianas contínuas. Nosso uso de variáveis discretas aqui implica 
que estamos lidando com transformadas amostras. 
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Na verdade, à medida que se aproxima do infinito, H(u) 
tende à direção de uma função constante e h(x) tende à di- 
reção de um impulso, o que não implica qualquer filtragem 
nos domínios da frequência e do espaço, respectivamente. 


As figuras 4.37(a) e (b) mostram gráficos de um fil- 
tro passa-baixa gaussiano no domínio da frequência e o 
filtro passa-baixa correspondente no domínio do espaço. 
Suponha que queiramos utilizar o formato de A(x) na 
Figura 4.37(b) como guia para a especificação dos coe- 
ficientes de uma pequena máscara espacial. A principal 
semelhança entre os dois filtros é que todos os seus valo- 
res são positivos. Dessa forma, concluímos que podemos 
implementar a filtragem passa-baixa no domínio do es- 
paço utilizando uma máscara com todos os coeficientes 
positivos (como fizemos na Seção 3.5.1). Para referência, 
a Figura 4.37(b) mostra duas das máscaras discutidas na 
seção. Observe o relacionamento recíproco entre a lar- 
gura dos filtros, como discutimos no parágrafo anterior. 
Quanto mais estreito for o filtro de domínio da frequên- 
cia, mais ele atenuará as baixas frequências, resultando 
em mais borramento. No domínio do espaço, isso signi- 
fica que uma máscara maior deve ser utilizada para au- 
mentar o borramento, com ilustra o Exemplo 3.13. 

Mais filtros complexos podem ser construídos uti- 
lizando a função gaussiana básica da Equação 4.7-5. Por 
exemplo, podemos construir um filtro passa-alta como a 
diferença entre as gaussianas: 


H(u)= Ae "PA — Be #203 (4.7-7) 


a H(u) c H(u) 


4 


Figura 4.37 


(a) Filtro passa-baixa gaussiano 1-D no domínio da fre- 
quéncia. (b) Filtro passa-baixa no domínio do espaço correspondente a (a). 
(c) Filtro passa-alta gaussiano no dominio da frequência. (d) Filtro passa- 
-alta no domínio do espaço correspondente a (c). As pequenas máscaras 
2-D mostradas são filtros espaciais que utilizamos no Capítulo 3. 
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com A > B e g >g. O filtro correspondente no domínio 
do espaço é 


h(x) = 200, Ae?" 


rod 
—V2n0,Be 7” 


As figuras 4.37(c) e (d) mostram gráficos dessas 
duas equações. Mais uma vez, notamos reciprocidade em 
termos de largura, mas o aspecto mais importante aqui 
é que h(x) tem um termo centralizado positivo com ter- 
mos negativos em cada lado. As duas pequenas máscaras 
mostradas na Figura 4.37(d) “capturam” essa proprieda- 
de. Ambas foram utilizadas no Capítulo 3 como filtros de 
aguçamento, que agora sabemos serem filtros passa-alta. 


(4.7-8) 


Apesar de termos nos esforçado significativamen- 
te para chegar até aqui, esteja certo de que é impossível 
compreender a filtragem no domínio da frequência sem 
as bases que acabamos de desenvolver. Na prática, o do- 
mínio da frequência pode ser visto como um “laboratório” 
no qual nos beneficiamos da correspondência entre o 
conteúdo de frequência e a aparência da imagem. Como 
demonstraremos várias vezes mais adiante neste capítu- 
lo, algumas tarefas que seriam excepcionalmente difíceis 
ou impossíveis de formular diretamente no domínio do 
espaço se tornam quase triviais no dominio da frequên- 
cia. Uma vez que selecionamos um filtro específico por 
meio de experimentações no domínio da frequência, a 
implementação do método é normalmente realizada no 
domínio do espaço. Uma abordagem consiste em especi- 
ficar pequenas máscaras espaciais que tentam capturar a 
“essência” da função completa de filtragem no domínio do 
espaço, como explicamos na Figura 4.37. Uma metodolo- 
gia mais formal é projetar um filtro digital 2-D utilizando 
aproximações com base em critérios matemáticos ou esta- 
tísticos. Retomaremos este ponto na Seção 4.11.4. 


Figura 4.38 (a) Imagem de uma construção e (b) seu espectro. 


| 

Exemplo 4.15 Obtenção de um filtro no domínio da 
frequência a partir de uma pequena 
máscara espacial. 


Neste exemplo, começaremos com uma máscara espa- 
cial e mostraremos como gerar seu filtro correspondente no 
domínio da frequência. Depois, compararemos os resultados 
da filtragem obtidos utilizando técnicas no domínio da frequên- 
cia e do espaço. Esse tipo de análise é útil quando se deseja 
comparar o desempenho de determinadas máscaras espaciais 
com um ou mais candidatos a filtros “completos” no domi- 
nio da frequência, ou para desenvolver uma compreensão 
mais profunda do desempenho de uma máscara. Para sim- 
plificar, utilizamos o detector de borda vertical de Sobel 3 x 3 
da Figura 3.41 (e). A Figura 4.38(a) mostra uma imagem de 
600 x 600 pixels, f(x, y), que desejamos filtrar, e a Figura 
4.38(b) mostra seu espectro. 


A Figura 4.39(a) mostra a máscara de Sobel, h(x, y) 
(o gráfico em perspectiva é explicado a seguir). Como o ta- 
manho da imagem de entrada é de 600 x 600 pixels e o 
tamanho do filtro é 3 x 3, evitamos o erro de wraparound 
preenchendo fe h para o tamanho de 602 x 602 pixels, de 
acordo com as equações 4.6-29 e 4.6-30. A máscara de Sobel 
apresenta simetria ímpar, contanto que seja incorporada a 
um arranjo de zeros de tamanho par (veja o Exemplo 4.10). 
Para manter essa simetria, posicionamos A(x, y) de forma 
que seu centro esteja no centro do arranjo preenchido 602 
x 602. Esse é um importante aspecto da geração de filtros. 
Se preservarmos a simetria ímpar em relação ao arranjo 
preenchido na formação de h(x, y), sabemos, com base na 
propriedade 9 da Tabela 4.1, que H(u, v) será puramente 
imaginária. Como demonstraremos no final deste exemplo, 
isso produzirá resultados idênticos à filtragem espacial da 
imagem utilizando h(x, y). Se a simetria não fosse preserva- 
da, os resultados não seriam os mesmos. 


O procedimento utilizado para gerar H(u, v) é: (1) 
multiplicar h (x, y) por (—1)**’ para centralizar o filtro no 
domínio da frequência; (2) calcular a DFT do resultado em 
(1); (3) definir a parte real da DFT resultante em 0 para 


SEE SS) 
KOISA) 
SRST 


LESS SIS 
EEES 


Figura 4.39 
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(a) Uma mascara espacial e um grafico em perspectiva de seu filtro correspondente no dominio da frequéncia. (b) Filtro mostrado 


como uma imagem. (c) Resultado da filtragem da Figura 4.38(a) no dominio da frequência com o filtro em (b). (d) Resultado da filtragem da mesma 


imagem com o filtro espacial em (a). Os resultados são idênticos. 


levar em consideração partes reais parasitas (sabemos que 
H(u, v) precisa ser puramente imaginária); e (4) multiplicar 
o resultado por (—1)"*". Este último passo reverte a mul- 
tiplicação de H(u, v) por (—1)"*", que é implícita quando 
h(x, y) foi movida para o centro de h(x, y). A Figura 4.39(a) 
mostra um grafico em perspectiva de H(u, v), e a Figura 
4.39(b) mostra H(u, v) como uma imagem. Como espe- 
rávamos, a função é ímpar e, dessa forma, assimétrica em 
relação a seu centro. A função H(u, v) é utilizada como 
qualquer outro filtro no domínio da frequência no proce- 
dimento esboçado na Seção 4.7.3. 


A Figura 4.39(c) é o resultado da utilização do filtro 
que acabamos de obter no procedimento esboçado na Seção 
4.7.3 para filtrar a imagem da Figura 4.38(a). Como espe- 
rávamos de um filtro derivativo, as bordas são realçadas e 
todas as áreas de intensidade constante são reduzidas a zero 
(o tom acinzentado se deve ao ajuste efetuado para exibi- 
ção). A Figura 4.39(d) mostra o resultado da filtragem da 
mesma imagem diretamente no domínio do espaço, utili- 
zando h(x, y) no procedimento esboçado na Seção 3.6.4. Os 
resultados são idênticos. 

E 


4.8 Suavização de imagens utilizando 
filtros no domínio da frequência 


O restante deste capítulo lida com várias técnicas de 
filtragem no domínio da frequência. Começamos com os 
filtros passa-baixa. Bordas e outras transições abruptas de 
intensidade (como o ruído) em uma imagem contribuem 
significativamente para o conteúdo de alta frequência 
de sua transformada de Fourier. Dessa forma, a suavi- 
zação (borramento) é obtida no domínio da frequência 
pela atenuação das altas frequências; isto é, pela filtragem 
passa-baixa. Nesta seção, consideraremos três tipos de fil- 
tros passa-baixa: ideal, Butterworth e gaussiana. Essas 
três categorias cobrem toda a variedade de filtragem, de 
muito abrupta (ideal) a muito atenuada (gaussiana). O 
filtro Butterworth tem um parâmetro chamado de ordem 
do filtro. Para valores altos de ordem, o filtro Butterworth 
se aproxima do filtro ideal. Para valores mais baixos de 
ordem, ele se assemelha mais a um filtro gaussiano. Des- 
sa forma, o Butterworth pode ser visto como um filtro 
que proporciona uma transição entre os dois “extremos”. 
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Todas as filtragens nesta seção seguem o procedimento 
esboçado na Seção 4.7.3, de forma que todas os filtros, 
H(u, v), são vistos como funções discretas de tamanho 
Px Q; isto é, as variáveis discretas de frequência estão no 
intervalou=0,1,2,...,P-lev=0,12,..,0-1. 


48.1 Filtros passa-baixa ideais 

Um filtro passa-baixa 2-D que deixa passar, sem ate- 
nuação, todas as frequências em um círculo de raio D, 
a partir da origem e “recorta” todas as frequências fora 
desse círculo é chamado de filtro passa-baixa ideal (ILPF, de 
ideal lowpass filter); ele é determinado pela função 


l1 seD(u,v)<D, 
O seD(u,v)>D, 


H(u,v)= (4.8-1) 


sendo que D, é uma constante positiva, e D(u, v) é a dis- 
tância entre um ponto (u, v) no domínio da frequência e 
o centro do retângulo de frequência; isto é, 


D(u,v)=[(u-P/2) +(v-Q12}]” (4-8-2) 


onde, como antes, P e Q são os tamanhos preenchidos 
das equações 4.6-31 e 4.6-32. A Figura 4.40(a) mostra 
um gráfico em perspectiva de H(u, v), e a Figura 4.40(b) 
mostra o filtro exibido como uma imagem. Como men- 
cionamos na Seção 4.3.3, o termo ideal indica que todas 
as frequências no círculo ou dentro do círculo de raio D, 
passam sem atenuação, enquanto todas as frequências 
fora do círculo são completamente atenuadas (excluídas 
pela filtragem). O filtro passa-baixa ideal é radialmente 
simétrico em relação à origem, o que significa que o filtro 
é completamente definido como um corte transversal ra- 
dial, como mostra a Figura 4.40(c). Rotacionar a 360º o 
corte transversal gera o filtro em duas dimensões. 


Para um corte transversal do ILPF, o ponto de tran- 
sição entre H(u, v) = 1 e H(u, v) = 0 é chamado de fre- 


Figura 4.40 
transversal radial do filtro. 


quência de corte. No caso da Figura 4.40, por exemplo, a 
frequência de corte é D,. As abruptas frequências de corte 
de um ILPF não podem ser realizadas com componentes 
eletrônicos, apesar de certamente poderem ser simula- 
das em computador. Os efeitos da aplicação desses filtros 
“não físicos” em uma imagem digital serão discutidos mais 
adiante nesta seção. 


Os filtros passa-baixa apresentados neste capítu- 
lo são comparados estudando seu comportamento em 
função das mesmas frequências de corte. Uma forma de 
definir um conjunto de localizações das frequências de corte 
padrão é calculando círculos que englobam quantidades 
específicas de potência da imagem total P,. Esse valor é 
obtido somando os componentes do espectro de potência 
das imagens preenchidas em cada ponto (u, v), para u = 
0,1,..,P-lev=0,1,...,Q- 1; isto é, 


vu 


— Q- 


>5P(u,v) 


yo 


P, = 


U: 


(4.8-3) 


Il 
= 


sendo que P(u, v) é dado na Equação 4.6-18. Se a DFT 
foi centralizada, um círculo de raio D, com origem no 
centro do retângulo de frequência engloba a por cento 
da potência, sendo 


a = 100/2524 Pv) P, 


e o somatório é realizado sobre os valores de (u, v) que se 
localizam dentro do círculo ou em sua fronteira. 


(4.8-4) 


As figuras 4.41 (a) e (b) mostram uma imagem pa- 
drão de teste e seu espectro. Os círculos sobrepostos no 
espectro têm raios de 10, 30, 60, 160 e 460 pixels, respec- 
tivamente. Esses círculos abrangem a por cento da potên- 
cia da imagem, para a = 87,0, 93,1, 95,7, 97,8 e 99,2%, 
respectivamente. O espectro cai rapidamente, com 87% 
da potência total sendo incluída em um círculo relativa- 
mente pequeno de raio 10. 


=E C H(u, v) 
4 
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> D(u, v 
D, (u, v) 


(a) Gráfico em perspectiva de uma função de transferência de filtro passa-baixa ideal. (b) Filtro exibido como uma imagem. (c) Corte 


aaaaaaaa 


Figura 4.41 
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(a) Padrão de teste de tamanho 688 x 688 pixels e (b) seu espectro de Fourier. O espectro tem o dobro do tamanho da imagem em 


virtude do preenchimento, mas é mostrado na metade do tamanho para caber na página. Os círculos sobrepostos têm raios iguais a 10, 30, 60, 160 e 
460 em relação à imagem total do espectro. Esses raios incluem 87,0, 93,1, 95,7, 97,8 e 99,2% da potência da imagem preenchida, respectivamente. 


E 
Exemplo 4.16 Suavização de imagens utilizando um ILPF. 


A Figura 4.42 mostra os resultados da aplicação de 
ILPFs com frequências de corte nos raios mostrados na Figura 
4.41 (b). A Figura 4.42 (b) é inútil para todos os fins práticos, a 
não ser que o objetivo do borramento seja eliminar todos os 
detalhes da imagem, com exceção das “manchas” que repre- 
sentam os maiores objetos. O grave borramento nessa imagem 
é um claro indicativo de que grande parte das informações dos 
detalhes acentuados na figura é contida nos 13% da potência 
removida pelo filtro. À medida que o raio do filtro aumenta, 
cada vez menos potência é removida, o que resulta em menos 
borramento. Observe que as imagens nas figuras 4.42 (c) a (e) 
são caracterizadas pelo ringing, cujas texturas se tornam cada 
vez mais finas à medida que a quantidade de conteúdo de alta 
frequência removido diminui. O ringing é visível até mesmo 
na imagem [Figura 4.42(e)] na qual somente 2% da potência 
total foi removida. Esse efeito é uma característica dos filtros 
ideais, como veremos em breve. Finalmente, o resultado para 
a = 99,2 mostra um borramento muito leve nos quadrados 
com ruído, mas, em grande parte, essa imagem se aproxima 
bastante do original. Isso indica que poucas informações de 
borda estão contidas no 0,8% da parte superior do espectro 
de potência neste caso particular. 

Fica claro, neste exemplo, que a filtragem passa-baixa 
ideal não é muito prática. No entanto, é útil estudar seu 
comportamento como parte do nosso desenvolvimento dos 
conceitos de filtragem. Além disso, como mostraremos na 
análise a seguir, algumas ideias interessantes são desen- 
volvidas a partir da tentativa de explicar a propriedade de 
ringing dos ILPFs no domínio do espaço. 

E 


As propriedades de borramento e ringing dos ILPFs 
podem ser explicadas por meio do teorema da convolução. 
A Figura 4.43(a) mostra a representação espacial, A(x, y), 
de um ILPF de raio 10, e a Figura 4.43(b) mostra o per- 
fil de intensidade de uma linha que passa pelo centro da 
imagem. Como um corte transversal do ILPF no domínio 


da frequência se parece com um filtro retangular, não é de 
surpreender que um corte transversal do filtro espacial 
correspondente tenha o formato de uma função sinc. A fil- 
tragem no domínio do espaço é realizada pela convolução 
de h(x, y) com a imagem. Imagine cada pixel da imagem 
como um impulso discreto cuja amplitude é proporcional 
à intensidade da imagem nessa posição. A convolução de 
um sinc com um impulso copia o sinc na posição do impulso. 
O lóbulo central do sinc é a principal causa do borramento, 
ao passo que os lóbulos mais externos e menores são os 
principais responsáveis pelo ringing. Convoluir o sinc com 
cada pixel na imagem nos proporciona um bom modelo 
para explicar o comportamento dos ILPFs. Como a “dis- 
persão” da função sinc é inversamente proporcional ao raio 
de H(u, v), quanto maior D, se torna, mais o sinc espacial 
se aproxima de um impulso que, no limite, não provoca 
nenhum borramento quando convoluído com a imagem. 
Você já deve estar familiarizado com esse tipo de compor- 
tamento recíproco. Nas duas seções seguintes, mostraremos 
que é possível obter o borramento com pouco ou nenhum 
ringing, um importante objetivo na filtragem passa-baixa. 


48.2 Filtros passa-baixa Butterworth 


A função de transferência do filtro passa-baixa But- 
terworth (BLPF, de Butterworth lowpass filter’ de ordem n, 
e com frequéncia de corte a uma distancia D, da origem 
é definida como 


1 
~ 14 [D(u,v)/ DP 


H(u,v) (4.8-5) 


* A função de transferência do filtro passa-baixa Butterworth cos- 
tuma ser expressa como a raiz quadrada de nossa expressão. Con- 
tudo, nosso interesse aqui é na forma básica do filtro, de forma 
que excluímos a raiz quadrada para simplicidade no cálculo com- 
putacional. 
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Figura 4.42 (a) Imagem original. (b) a (f) Resultados da filtragem utilizando ILPFs com frequências de corte definidas nos valores de raio 10, 30, 
60, 160 e 460, como mostrado na Figura 4.41(b). A potência removida por esses filtros foi de 13, 6,9, 4,3, 2,2 e 0,8% do total, respectivamente. 


Figura 4.43 (a) Representação no dominio do espaço de um ILPF de raio 5 e tamanho 1.000 x 1.000. (b) Perfil de intensidade de uma linha 


horizontal passando pelo centro da imagem. 


onde D(u, v) é dada pela Equação 4.8-2. A Figura 4.44 
mostra um gráfico em perspectiva, a exibição em forma de 
imagem e os cortes transversais radiais da função do BLPF. 


Diferentemente do ILPF a função de transferência 
BLPF não tem uma descontinuidade abrupta que resulta 
em um corte bem definido entre frequências passadas e 
filtradas. Para filtros com funções de transferência suaves, 
costuma-se definir um locus de frequência de corte em 
pontos para os quais H(u, v) é reduzida a uma determinada 
fração de seu valor máximo. Na Equação 4.8-5, (redução 
de 50% de seu valor máximo 1) quando D(u, v) = D, 


a 
Exemplo 4.17 Suavizagao de imagem com um filtro 
passa-baixa Butterworth. 

A Figura 4.45(b) mostra os resultados da aplicação do 
BLPF da Equação 4.8-5 à Figura 4.45(a), com n = 2 e D, 
igual aos cinco raios definidos na Figura 4.41 (b). Diferente- 
mente dos resultados da Figura 4.42 para o ILPF, notamos 
aqui uma transição suave do borramento em função do au- 
mento da frequência de corte. Além disso, nenhum ringing é 
visível em qualquer uma das imagens processadas com esse 
BLPF particular, um fato atribuído à transição suave do filtro 
entre baixas e altas frequências. 

E 


Um BLPF de ordem 1 não apresenta o efeito de rin- 
ging no domínio do espaço. O ringing geralmente é im- 
perceptível em filtros de ordem 2, mas pode se tornar 
significativo em filtros de ordem superior. A Figura 4.46 
mostra uma comparação entre a representação espacial 
dos BLPFs de várias ordens (utilizando uma frequência 
de corte 5 em todos os casos). Também observamos o per- 
fil de intensidade ao longo de uma linha transversal ho- 
rizontal que passa pelo centro de cada filtro. Esses filtros 
foram obtidos e exibidos utilizando o mesmo procedimento 
usado para gerar a Figura 4.43, Para facilitar as compara- 
ções, um realce adicional com uma transformação gama 


Figura 4.44 
(c) Cortes transversais radiais do filtro de ordens 1 a 4. 
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(veja a Equação 3.2-3) foi aplicada às imagens da Figura 
4.46. O BLPF de ordem 1 [Figura 4.46(a)] não apresenta 
ringing nem valores negativos. O filtro de ordem 2 mos- 
tra um leve ringing e pequenos valores negativos, mas 
são certamente menos acentuados que no ILPF. Como as 
outras imagens mostram, 0 ringing no BLPF se torna sig- 
nificativo para filtros de ordem superior. Um filtro But- 
terworth de ordem 20 exibe características similares às 
da ILPF (no limite, os dois filtros são idênticos). BLPFs de 
ordem 2 representam um bom meio-termo entre uma 
filtragem passa-baixa eficaz e um ringing aceitável. 


48.3 Filtros passa-baixa gaussianos 


Os filtros passa-baixa gaussianos (GLPE de Gaussian 
lowpass filter) de uma dimensão foram apresentados na Se- 
ção 4.7.4 para nos ajudar a explorar algumas importantes 
relações entre os domínios do espaço e da frequência. A 
forma desses filtros em duas dimensões é dada por 


H(u, v) = 0? ere (4.8-6) 


sendo, como na Equação 4.8-2, D(u, v) a distância a par- 
tir do centro do retângulo de frequência. Não utilizamos 
aqui uma constante de multiplicação como na Seção 
4.7.4 para mantermos a consistência com os filtros discu- 
tidos nesta seção, cujo valor mais alto é 1. Como antes, o 
trata-se de uma medida de dispersão ao redor do centro. 
Fazendo o = D, podemos expressar o filtro utilizando a 
notação dos outros filtros apresentados nesta seção: 


H(u,v) = € "teia (4.8-7) 


sendo D, a frequência de corte. Quando D(u, v) = Dy 0 
GLPF é reduzido para 0,607 de seu valor máximo. 


Como mostra a Tabela 4.3, a transformada inversa 
de Fourier do GLPF também é uma gaussiana. Isso signi- 
fica que um filtro espacial gaussiano, obtido pelo cálculo 


C H(u, v) 
Vv 


>D(u, v) 


(a) Gráfico em perspectiva de uma função de transferência de filtro passa-baixa Butterworth. (b) Filtro exibido como uma imagem. 
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Figura 4.45 (a) Imagem original. (b) a (f) Resultados da filtragem utilizando BLPF de ordem 2, com frequências de corte nos raios mostrados na 
Figura 4.41. Compare com a Figura 4.42. 


AT VÁ 


Figura 4.46 (a)a (d) Representação espacial de BLPF de ordem 1, 2, 5 e 20, e perfis de intensidade correspondentes passando pelo centro dos filtros 
(o tamanho em todos os casos é 1.000 x 1.000 e a frequência de corte é 5). Observe como o efeito de ringing aumenta em função da ordem do filtro. 


da IDFT da Equação 4.8-6 ou 4.8-7, não apresentará ne- 
nhum efeito de ringing. A Figura 4.47 mostra um gráfico 
em perspectiva, a exibição em forma de imagem e os cor- 
tes transversais radiais de uma função GLPF e a Tabela 
4.4 resume os filtros passa-baixa discutidos nesta seção. 


a 
Exemplo 4.18 Suavização de imagem com um filtro 
passa-baixa gaussiano. 


A Figura 4.48 mostra os resultados da aplicação do 
GLPF da Equação 4.8-7 na Figura 4.48(a), com D, igual 
aos cinco raios definidos na Figura 4.41(b). Como no caso 
do BLPF de ordem 2 (Figura 4.45), notamos uma transi- 
ção suave do borramento como uma função do aumento 
da frequência de corte. O GLPF obteve ligeiramente menos 
suavização do que o BLPF de ordem 2 para o mesmo valor 
de frequência de corte, como pode ser visto, por exemplo, 
na comparação das figuras 4.45(c) e 4.48(c). Esse resultado 
era esperado, porque o perfil do GLPF não é tão “abrupto” 
quanto o perfil do BLPF de ordem 2. No entanto, os resulta- 
dos são bastante comparáveis e nos certificamos da ausência 
de ringing no caso de GLPF. Essa é uma importante carac- 
terística na prática, especialmente em situações (por exem- 
plo, em imagens médicas) nas quais artefatos de qualquer 
natureza são inaceitáveis. Em casos nos quais é necessário 
o controle rigoroso da transição entre baixas e altas frequên- 
cias em relação à frequência de corte, o BLPF representa 
uma escolha mais apropriada. O preço desse controle adi- 
cional sobre o perfil do filtro é a possibilidade de ocorrência 
do ringing. 


Figura 4.47 
radiais do filtro para vários valores de D, 
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4.84 Exemplos adicionais de filtragem passa-baixa 


Na discussão a seguir, mostraremos várias aplicações 
práticas da filtragem passa-baixa no domínio da frequên- 
cia. O primeiro exemplo provém do campo da percepção 
artificial com aplicação no reconhecimento de caracteres; o 
segundo provém da indústria gráfica e de publicação; e 
o terceiro se relaciona ao processamento de imagens aé- 
reas e de satélite. Resultados similares podem ser obtidos 
utilizando as técnicas de filtragem espacial passa-baixa 
analisadas na Seção 3.5. 


A Figura 4.49 apresenta a amostra de um texto em 
baixa resolução. É possível encontrar textos assim, por 
exemplo, em transmissões de fax, material fotocopiado e 
registros históricos. Essa amostra em particular está livre 
de dificuldades adicionais, como borrões, dobras e partes 
rasgadas. A seção ampliada na Figura 4.49(a) mostra que 
os caracteres desse documento estão distorcidos por falta 
de resolução, sendo que muitos deles estão incompletos. 
Apesar de os seres humanos preencherem visualmente 
essas lacunas sem problemas, sistemas de reconhecimen- 
to automáticos têm grandes dificuldades de ler caracteres 
incompletos. Uma abordagem para lidar com isso é preen- 
cher pequenas lacunas na imagem de entrada por meio do 
borramento. A Figura 4.49(b) mostra como os caracteres 
podem ser “consertados” por meio desse processo simples 
utilizando um filtro passa-baixa gaussiano com D, = 80. As 
imagens são de tamanho 444 x 508 pixels. 


A filtragem passa-baixa é um elemento fundamen- 
tal na indústria gráfica e de publicação, na qual é utilizada 


Dy = 10 
Do = 20 
Dy = 40 


Re 100 


D(u, v) 


(a) Um gráfico em perspectiva de uma função de transferência GLPF. (b) Filtro exibido como uma imagem. (c) Cortes transversais 


Tabela 4.4 Filtros passa-baixa. D, é a frequência de corte, e n é a ordem do filtro Butterworth. 


Ideal Butterworth 


u,v) 


Huv)= l seD(u,v)<D, 


0 seDlu,v)>D, 


“+ Dlu,v)/D,” 


Gaussiano 


Hlu,v) =e 2 22 
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Figura 4.48 (a) Imagem original. (b) a (f) Resultados da filtragem utilizando GLPFs com frequências de corte nos raios mostrados na Figura 4.41. 


Compare com as figuras 4.42 e 4.45. 


Historicaliy, certain computer 
programs were written using 
only two digits rather than 
four to define the anplicable 
year. Accordingly, the 
company's software may 
recognize a date using "00" 
as 1900 rather than the year 


Historically, certain computer 
programs were written using 
only two digits rather than 
four to define the applicable 
year. Accordingly, the 
company's software may 
recognize a date using "00" 
as 1900 rather than the year 
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Figura 4.49 (a) Amostra de um texto de baixa resolução (observe caracteres incompletos na vista ampliada). (b) Resultado da filtragem com um 


GLPF (segmentos dos caracteres incompletos foram restaurados). 


em várias funções de pré-processamento, incluindo a 
máscara de nitidez (unsharp mask), como discutimos na 
Seção 3.6.3. O processamento “cosmético” representa ou- 
tra utilização da filtragem passa-baixa antes da impressão. 
A Figura 4.50 mostra uma aplicação da filtragem passa- 
-baixa para produzir um resultado de aparência mais suave 
e atenuada a partir de uma imagem original mais acen- 
tuada. Para rostos humanos, o objetivo típico é reduzir o 
aguçamento de linhas finas na pele e pequenas manchas. 
As seções ampliadas nas figuras 4.50(b) e (c) mostram cla- 
ramente uma redução significativa nas linhas finas na pele 
ao redor dos olhos neste caso. Com efeito, as imagens suavi- 
zadas têm uma aparência bastante suave e agradável. 


A Figura 4.51 mostra duas aplicações da filtragem pas- 
sa-baixa na mesma imagem, mas com objetivos totalmente 
diferentes. A Figura 4.51 (a) é uma imagem 808 x 754 obtida 
com um radiômetro de muito alta resolução (VHRR, de 
very high resolution radiometer), mostrando parte do Gol- 
fo do México (escuro) e da Flórida (claro) tirada de um 
satélite da Noaa (National Oceanic and Atmospheric Ad- 
ministration). Observe as linhas de varredura horizontais 
do sensor. As fronteiras entre corpos d'água foram cau- 
sadas por correntes em espiral. Essa imagem ilustra imagens 
de sensoriamento remoto nas quais os sensores tendem 
a de produzir linhas acentuadas de varredura na direção 
em que a cena está sendo escaneada (veja o Exemplo 
4.24 para uma ilustração de uma causa física). A filtragem 
passa-baixa é uma forma geral, porém simples, de reduzir 
o efeito dessas linhas, como mostra a Figura 4.51(b) (ve- 
remos abordagens mais eficazes nas seções 4.10 e 5.4.1). 
Essa imagem foi obtida utilizando um GLPF com D, = 50. 
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A redução do efeito das linhas de varredura pode sim- 
plificar a detecção de características como os limites de 
interface entre correntes marítimas. 


A Figura 4.51 (c) mostra o resultado de uma filtragem 
passa-baixa gaussiana significativamente mais agressiva 
com D, = 20. Aqui, o objetivo é borrar o maximo de de- 
talhes possível ao mesmo tempo em que as características 
maiores são mantidas reconhecíveis. Por exemplo, esse 
tipo de filtragem poderia fazer parte de um estágio de pré- 
processamento para um sistema de análise de imagens 
que busca características específicas em um banco de ima- 
gens. Um exemplo dessas características poderia ser lagos 
de um determinado tamanho, como o Lago Okeechobee 
na área inferior ao leste da Flórida, mostrado como uma 
região arredondada na Figura 4.51 (c). A filtragem passa- 
baixa ajuda a simplificar a análise excluindo pelo cálculo 
da média os detalhes na imagem que são menores do que 
as características de interesse. 


4.9 Aguçamento de imagens utilizando 
filtros no domínio da frequência 


Na seção anterior, mostramos que uma imagem pode 
ser suavizada por meio da atenuação dos componentes 
de alta frequência de sua transformada de Fourier. Como 
as bordas e outras mudanças abruptas de intensidades são 
associadas a componentes de alta frequência, o aguçamen- 
to de imagens pode ser obtido no domínio da frequência 
pela filtragem passa-alta, que atenua os componentes de 
baixa frequência sem afetar as informações de alta fre- 
quência na transformada de Fourier. Como na Seção 
4.8, consideramos apenas filtros de deslocamento de fase 


Figura 4.50 (a) Imagem original (784 x 732 pixels). (b) Resultado da filtragem utilizando um GLPF com D, = 100. (c) Resultado de filtragem 
utilizando um GLPF com D, = 80. Observe a redução nas linhas de expressão na pele nas seções ampliadas em (b) e (c). 


* Discutiremos a máscara de nitidez no domínio da frequência na Seção 4.9.5. 
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Figura 4.51 


(a) Imagem mostrando linhas de varredura horizontais proeminentes. (b) Resultado da filtragem utilizando um GLPF com D, =50. 


(c) Resultado da utilização de um GLPF com D, = 20. (Imagem original: cortesia da Noaa.) 


zero, que são os radialmente simétricos. Todas as filtragens 
nesta seção se baseiam no procedimento esboçado na Se- 
ção 4.7.3, de forma que todas as funções filtro, H(u, v), são 
vistas como funções discretas de tamanho P x Q; isto é, as 
variáveis de frequência discreta estão no intervalo u = 0, 
laras l= Levys 0:12) aay Q = Je 

Um filtro passa-alta (HP, de highpass) é obtido a par- 
tir de um dado filtro passa-baixa (LP, de lowpass) por meio 
da equacao 


Halu, v) = 1-H, (u, v) (4.9-1) 


sendo H,,(u, v) a função de transferência do filtro passa- 
-baixa. Isto é, quando o filtro passa-baixa atenua frequên- 
cias, o filtro passa-alta as passa, e vice-versa. 


Nesta seção, consideramos os filtros passa-alta ideal, 
Butterworth e gaussiano. Como na seção anterior, ilus- 
tramos as características desses filtros tanto no domínio 
da frequência quanto do espaço. A Figura 4.52 mostra 
os gráficos 3-D típicos, representações de imagem e cor- 
tes transversais para esses filtros. Como antes, vemos que 
o filtro Butterworth representa uma transição entre o 
aguçamento do filtro ideal e a ampla suavidade do filtro 
gaussiano. A Figura 4.53, discutida nas seções seguintes, 
ilustra as aparências desses filtros no domínio do espaço. 
Os filtros espaciais foram obtidos e exibidos com o proce- 
dimento utilizado para gerar as figuras 4.43 e 4.46 


49.1 Filtros passa-alta ideais 


Um filtro passa-alta ideal (IHPF, de ideal highpass filter) 
2-D é definido como 


O seD(u,v)< D, 


A(u,v)= 
oe) l1 seD(u,v) > D, 


(4.9-2) 


em que D, é a frequência de corte, e D(u, v) é dada pela 
Equação 4.8-2. Essa expressão pode ser deduzida direta- 


mente das equações 4.8-1 e 4.9-1. Como pretendido, o 
IHPF é o oposto do ILPF no sentido de que ele elimina 
todas as frequências dentro de um círculo de raio D, en- 
quanto passa, sem atenuação, todas as frequências fora 
do círculo. Como no caso do ILPF, o IHPF não é fisicamen- 
te realizável. No entanto, como antes, ele será analisado 
aqui para que o conteúdo seja completo, já que suas pro- 
priedades podem ser utilizadas para explicar fenômenos 
como o efeito de ringing no domínio do espaço. A discus- 
são será breve. 


Em virtude do modo como se relacionam (Equação 
4.9-1), podemos esperar que os IHPFs tenham as mesmas 
propriedades de ringing que os ILPFs. Isso é claramente de- 
monstrado na Figura 4.54, que consiste de vários resulta- 
dos de IHPF utilizando a imagem original da Figura 4.41 (a) 
com D, igual a 30, 60 e 160 pixels, respectivamente. O rin- 
ging na Figura 4.54(a) é tão grave que produziu fronteiras 
distorcidas e mais espessas nos objetos (veja, por exemplo, a 
grande letra “a”). As bordas nos três círculos superiores não 
são bem visíveis porque não são tão fortes quanto as outras 
bordas da imagem (a intensidade desses três objetos é mui- 
to próxima da intensidade do fundo, produzindo descon- 
tinuidades de magnitude mais baixa). Observar o tamanho 
do “ponto” da representação espacial do IHPF na Figura 
4.53(a), tendo em mente que a filtragem no domínio do es- 
paço é a convolução do filtro espacial com a imagem, ajuda 
a explicar por que os objetos e as linhas menores aparecem 
quase como um branco sólido. Observe em particular os três 
pequenos quadrados na linha superior e as barras verticais 
finas da Figura 4.54(a). A situação melhorou de certa for- 
ma com D, = 60. A distorção da borda ainda é bastante evi- 
dente, mas agora começamos a ver a filtragem nos objetos 
menores. Em virtude da relação inversa entre os domínios 
de frequência e do espaço, sabemos que o tamanho do pon- 
to desse filtro é menor que o ponto do filtro com D, = 30. 
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Figura 4.52 Linha superior: gráfico em perspectiva, representação na forma de imagem e corte transversal de um filtro passa-alta ideal típico. 
Linha do meio e inferior: a mesma sequência para filtros passa-alta Butterworth e gaussiano, respectivamente. 
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Figura 4.53 Representação espacial de filtros passa-alta típicos: (a) ideal, (b) Butterworth e (c) gaussiano de domínio da frequência e perfis de 
intensidade correspondentes a partir de seus centros. 
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Figura 4.54 Resultados da filtragem passa-alta da imagem da Figura 4.41(a) utilizando um IHPF com D, = 30, 60 e 160. 


O resultado para D, = 160 se aproxima do que uma ima- 
gem submetida ao filtro passa-alta deveria aparentar. Aqui, 
as bordas são muito mais livres de ruído e menos distorci- 
das, e os objetos menores foram adequadamente filtrados. 
Naturalmente, o fundo constante de todas as imagens tor- 
na-se zero nessas imagens submetidas ao filtro passa-alta 
porque a filtragem passa-alta é análoga à diferenciação no 
domínio do espaço. 


4.9.2 Filtros passa-alta Butterworth 


Um filtro passa-alta Butterworth (BHPF, de Butterworth 
highpass filter) 2-D de ordem n e frequência de corte é 
definido como 


l 


MS [D, /D(u, v)" 


(4.9-3) 


no qual D(u, v) é determinada pela Equação 4.8-2. Essa 
expressão pode ser deduzida diretamente das equações 
4.8-5 e 4.9-1. A linha do meio da Figura 4.52 mostra uma 
imagem e um corte transversal da função BHPF. 


Como no caso dos filtros passa-baixa, podemos es- 
perar que os filtros passa-alta Butterworth se comportem 
de forma mais suave que os IHPFs. A Figura 4.55 mos- 
tra o desempenho de um BHPF de ordem 2 e D, com os 


mesmos valores utilizados na Figura 4.54. As bordas são 
muito menos distorcidas do que na Figura 4.54, mesmo 
para o menor valor de frequência de corte. Como o tamanho 
dos pontos nas áreas centrais do IHPF e do BHPF de do- 
mínio espacial é similar (veja as figuras 4.53(a) e (b)), o 
desempenho dos dois filtros sobre os objetos menores é 
comparável. A transição para valores mais altos das fre- 
quências de corte é muito mais suave com o BHPF. 


4.93 Filtros passa-alta gaussianos 


A função de transferência do filtro passa-alta gaus- 
siano (GHPF, de Gaussian highpass filter) com locus de 
frequência de corte em uma distância D, a partir do cen- 
tro do retângulo de frequência é determinada por 


eo Pi ua 


H(u,v)=1— (4.9-4) 


sendo D(u, v) determinada pela Equação 4.8-2. Essa ex- 
pressão pode ser deduzida diretamente das equações 
4.8-7 e 4.9-1. A terceira linha da Figura 4.52 mostra um 
gráfico em perspectiva, imagem e corte transversal da 
função GHPF. Seguindo o mesmo formato que no caso do 
BHPF, mostramos na Figura 4.56 os resultados compara- 
tivos utilizando GHPFs. Como esperávamos, os resultados 
obtidos são mais graduais do que com os dois filtros ante- 


Figura 4.55 Resultados da filtragem passa-alta da imagem da Figura 4.41(a) utilizando um BHPF de ordem 2 com D, = 30, 60 e 160, correspon- 
dendo aos círculos mostrados na Figura 4.41(b). Esses resultados são muito mais suaves do que os obtidos com um IHPF. 


riores. Até mesmo a filtragem dos objetos menores e das 
barras finas é mais “limpa” com o filtro gaussiano. A 
Tabela 4.5 contém um resumo dos filtros passa-alta dis- 
cutidos nesta seção. 


E 
Exemplo 4.19 Utilização da filtragem passa-alta e da 
limiarização para o realce de imagens. 


A Figura 4.57(a) é uma imagem 1.026 x 962 de uma 
impressão digital do polegar na qual manchas (um problema 
comum) são evidentes. Um importante passo no reconheci- 
mento automatizado de impressões digitais é o realce das cris- 
tas das impressões e a redução de manchas. O realce tam- 
bém é útil na interpretação humana de impressões digitais. 
Neste exemplo, utilizamos a filtragem passa-alta para realçar 
as cristas e reduzir os efeitos de mancha. O realce das cristas 
é possível pelo fato de conterem altas frequências, que são 
inalteradas por um filtro passa-alta. Por outro lado, o filtro 
reduz componentes de baixa frequência, que correspondem 
às intensidades de variação suave (lenta) na imagem, como 
o fundo e as manchas. Dessa forma, o realce é obtido redu- 
zindo o efeito de todas as características da imagem, exceto 
aquelas com altas frequências, que são as características de 
interesse neste caso. 


A Figura 4.57(b) é o resultado da utilização de um fil- 
tro passa-alta Butterworth de ordem 4 com uma frequência 
de corte igual a 50.* Como esperado, a imagem com filtra- 
gem passa-alta perdeu tonalidades de cinza porque o termo 
dc foi reduzido a 0. O resultado final é que os tons escuros 
normalmente predominam nas imagens com filtragem pas- 
sa-alta, demandando, assim, processamento adicional para 
realçar detalhes de interesse. Uma abordagem simples é a 
limiarização da imagem filtrada. A Figura 4.57(c) mostra o 
resultado de configurar em preto todos os valores negativos 
e em branco todos os valores positivos na imagem filtrada. 
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Observe como as cristas estão mais nítidas e o efeito das 
manchas foi consideravelmente reduzido. Portanto, cristas 
que mal são visíveis na seção superior direita da imagem na 
Figura 4.57(a) aparecem bem realçadas na Figura 4.57 (c). 
= 


4.94 O laplaciano no domínio da frequência 


Na Seção 3.6.2, utilizamos o laplaciano para realce 
de imagens no domínio do espaço. Nesta seção, vamos 
rever o laplaciano e mostrar que ele gera resultados equi- 
valentes utilizando técnicas no domínio da frequência. 
É possível demonstrar (Exercício 4.26) que o laplaciano 
pode ser implementado no domínio da frequência utili- 


zando o filtro 
H(u, v) = — 47 (w + v?) (4.9-5) 


ou, em relação ao centro do retângulo de frequência, uti- 
lizando o filtro 


H(u, v) = — 4m[(u — P/2)? + (v— Q/2)P 


= — 47ºD*(u, v) (4.9-6) 


no qual D(u, v) é a função de distância dada na Equação 
4.8-2. Dessa forma, a imagem processada pelo laplaciano 


é obtida como: 
W(x, y) = S H(u, v)F(u, v)} (4.9-7) 


sendo F(u, v) a DFT de f(x, y). Como explicamos na Seção 
3.6.2, o realce é obtido pela equação: 


glx, y) = fix, y) + Nf, y) (4.9-8) 


Aqui, c = —1 porque H(u, v) é negativa. No Capí- 
tulo 3, f(x, y) e V? f(x, y) tinham valores comparáveis. 


Figura 4.56 Resultados da filtragem passa-alta da imagem da Figura 4.41(a) utilizando um GHPF com D, = 30, 60, 160, correspondendo aos 


circulos da Figura 4.41(b). Compare com as figuras 4.54 e 4.55. 


O valor D, = 50 equivale a aproximadamente 2,5% da menor dimensão da imagem preenchida. A ideia é que D, esteja próxima da origem 
para que as baixas frequências sejam atenuadas, mas não completamente eliminadas. Uma faixa de 2 a 5 por cento da menor dimensão é 


um bom ponto de partida. 
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Tabela 4.5 Filtros passa-alta. D, é a frequência de corte e né a ordem do filtro Butterworth. 


Ideal 


0 seDlu,v)<D, 
1 seD(u,v)>D, 


H(u,v) -| 


No entanto, o cálculo de V?f(x, y) com a Equação 4.9-7 
apresenta fatores de escala da DFT que podem ser várias 
ordens de magnitude maior que o valor máximo de f. 
Dessa forma, as diferenças entre fe seu laplaciano de- 
vem ser ajustadas para intervalos compatíveis. O modo 
mais fácil de lidar com esse problema é normalizar os 
valores de f(x, y) para o intervalo [0, 1] (antes de calcu- 
lar sua DFT) e dividir V? f(x, y) por seu valor máximo, 
que o levará ao intervalo aproximado [—1, 1] (lembre- 
-se que o laplaciano tem valores negativos). A Equação 
4.9-8 pode, então, ser aplicada. 


No domínio da frequência, a Equação 4.9-8 é escrita 
na forma 


(4.9-9) 


Apesar da elegância desse resultado, ele apresen- 
ta os mesmos problemas de escala que acabamos de 
mencionar, além de o fator de normalização não ser tão 
facilmente calculado. Por essa razão, a Equação 4.9-8 é a 
implementação preferencial no domínio da frequência, 
calculando V? f(x, y) com a utilização a Equação 4.9-7 e 
fazendo o ajuste de escala utilizando a abordagem men- 
cionada no parágrafo anterior. 


= 
Exemplo 4.20 Agugamento de imagem no domínio da 
frequência utilizando o laplaciano. 


A Figura 4.58(a) é a mesma que a Figura 3.38(a), e a 
Figura 4.58 (b) mostra o resultado da utilização da Equação 


Figura 4.57 


H(u,v) = 


1+[D, /Dlu,v)]” 


Gaussiano 


Hlu,v)=1—@ 7 nea 


4.9-8, na qual o laplaciano foi calculado no dominio da fre- 
quência utilizando a Equação 4.9-7. O ajuste de escala foi 
realizado como descrevemos em relação a essa equação. Ve- 
mos, ao comparar as figuras 4.58(b) e 3.38(e), que os resul- 
tados do domínio da frequência e do espaço são visualmente 
idênticos. Observe que os resultados dessas duas figuras cor- 
respondem à máscara laplaciana da Figura 3.37(b), que tem 
um —8 no centro (Exercício 4.26). 

= 


4.9.5 Máscara de nitidez, filtragem high-boost e 
filtragem de ênfase de alta frequência 


Nesta seção, discutiremos formulações do domínio 
da frequência de técnicas de aguçamento de imagens por 
máscara de nitidez (unsharp mask) e pela filtragem high- 
-boost apresentadas na Seção 3.6.3. Utilizando os métodos 
do domínio da frequência, a máscara definida na Equa- 
ção 3.6-8 é dada por 


Imáscara X I) = fX Y) — fip 9) (4.9-10) 


com 


fa y) = STH (u, v)F(u, v)] (4.9-11) 


na qual H (u, v) é um filtro passa-baixa e F(u, v) é a trans- 
formada de Fourier de f(x, y). Aqui, f,,(x, y) é uma ima- 
gem suavizada análoga a f(x,y) na Equação 3.6-8. 


Então, como na Equação 3.6-9, 


IXY) =f\x, V) H K * Daran) (4.9-12) 


Essa expressão define a máscara de nitidez quando 
k = 1 e a filtragem high-boost quando k > 1. Utilizando 


(a) Impressão digital do polegar. (b) Resultado da filtragem passa-alta (a). (c) Resultado da limiarização de (b). (Imagem original: 


cortesia do Instituto Nacional de Padrões e Tecnologia dos Estados Unidos.) 
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Figura 4.58 


os resultados precedentes, podemos expressar a Equação 
4.9-12 totalmente em termos dos cálculos no domínio da 
frequência envolvendo um filtro passa-baixa: 


g(x, y) = SH + k* [1 — H (u, v)]]F(u, v)} (4.9-13) 


Utilizando a Equação 4.9-1, podemos expressar esse 
resultado em termos de um filtro passa-alta: 


g(x, y) = SHE +k* Hu v)|F(u, v)) (4.9-14) 


A expressão contida nos colchetes é chamada de 
filtro de ênfase de alta frequência. Como observamos ante- 
riormente, os filtros passa-alta eliminam o termo dc, re- 
duzindo, assim, a intensidade média da imagem filtrada 
a 0. O filtro de ênfase de alta frequência não tem esse 
problema em virtude do 1 adicionado ao filtro passa-alta. 
A constante, k, dá controle sobre a proporção de altas 
frequências que influencia o resultado final. Uma formu- 
lação ligeiramente mais geral da filtragem de ênfase de 
alta frequência é a expressão 


g(x, y) = Sk, + k, * H(t, v)]F(u, v)} (4.9-15) 


na qual k, > 0 permite o controle de offset a partir da 
origem [veja a Figura 4.31(c)], e k, > 0 controla a contri- 
buição das altas frequências. 


Exemplo 4.21 Realce da imagem utilizando a filtragem 


de ênfase de alta frequência. 


A Figura 4.59(a) mostra uma imagem radiográfica de 
tórax 416 x 596 com uma faixa estreita de níveis de intensi- 
dade. O objetivo deste exemplo é realçar a imagem utilizando 
a filtragem de ênfase de alta frequência. Os raios X não po- 
dem ser focalizados como ocorrre nas lentes óticas, e as ima- 
gens resultantes costumam ser ligeiramente borradas. Como 


(a) Imagem original, borrada. (b) Imagem realçada utilizando o laplaciano no domínio da frequência. Compare com a Figura 3.38(e). 


as intensidades dessa imagem particular tendem na direção 
da extremidade escura da escala de cinza, também aproveita- 
mos a oportunidade para apresentar um exemplo de como o 
processamento no domínio do espaço pode ser utilizado para 
complementar a filtragem no domínio da frequência. 


A Figura 4.59(b) mostra o resultado da filtragem pas- 
sa-alta utilizando um filtro gaussiano com D, = 40 (apro- 
ximadamente 5% da menor dimensão da imagem preen- 
chida).* Como esperávamos, o resultado filtrado apresenta 
relativamente poucas características, mas mostra levemente 
as bordas principais da imagem. A Figura 4.59(c) apresenta a 
vantagem da filtragem de ênfase de alta frequência, na qual 
utilizamos a Equação 4.9-15 com k, = 0,5 e k, = 0,75. Ape- 
sar de a imagem ainda estar escura, a tonalidade do nível de 
cinza em decorrência dos componentes de baixa frequência 
não se perdeu. 


Como discutimos na Seção 3.3.1, uma imagem carac- 
terizada por níveis de intensidade em uma faixa estreita 
da escala de cinza é uma candidata ideal para a equalização de 
histograma. Como mostra a Figura 4.59(d), isso foi, de fato, 
um método apropriado para realçar ainda mais a imagem. 
Observe a clareza da estrutura óssea e outros detalhes que 
simplesmente não são visíveis em qualquer uma das outras 
três imagens. A imagem realçada final apresenta um pouco 
de ruído, mas isso é típico de imagens de raios X quando a 
escala de cinza é expandida. O resultado obtido por meio 
uma combinação de ênfase de alta frequência e equalização 
de histograma é superior ao resultado que seria obtido utili- 
zando qualquer método isoladamente. 

a 


* Artefatos como o ringing são inaceitáveis em imagens médicas. 
Dessa forma, é uma boa ideia evitar a utilização de filtros que 
tenham o potencial de incluir artefatos na imagem processada. 
Como os filtros gaussianos no domínio da frequência e do espaço 
são pares de transformadas de Fourier, eles produzem resultados 
suaves livres de artefatos. 
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Figura 4.59 


(a) Uma imagem radiográfica de tórax. (b) Resultado da filtragem passa-alta com filtro gaussiano. (c) Resultado da filtragem de 


ênfase de alta frequência utilizando o mesmo filtro. (d) Resultado da equalização de histograma em (c). (Imagem original: cortesia do Dr. Thomas 
R. Gest, Divisão de Ciências Anatômicas, Faculdade de Medicina da Universidade de Michigan.) 


49.6 Filtragem homomorfica 


O modelo de iluminação-refletância apresentado 
na Seção 2.3.4 pode ser utilizado para desenvolver um 
procedimento no domínio da frequência para melhorar a 
aparência de uma imagem efetuando simultaneamente 
a compressão da faixa de intensidade e o realce de contraste. 
A partir da discussão naquela seção, uma imagem f(x, y) 
pode ser expressa como o produto dos componentes de 
iluminação, i(x, y), e refletância, r(x, y): 


fx y) = iix y)r(% y) (4.9-16) 


Essa equação não pode ser utilizada diretamente para 
atuar sobre os componentes de frequência de iluminação 
e refletância porque a transformada de Fourier de um 
produto não é o produto das transformadas: 


SL flx, 9)] = Sli, ylsi, y)] (4.9-17) 

No entanto, suponha que definamos 

2(x, y) = In fix, y) 
=Ini(x,y)+Inr(x,y) (4.9-18) 
Entao, 
S{z(x, y)} = S{In fix, y)} 
= S{In i(x, y)} + In r(x, y)} (4.9-19) 
ou 

Z(u, v) = F(u, v) + F (u, v) (4.9-20) 


sendo F(u, v) e F(u, v) as transformadas de Fourier de 
In i(x, y) e In r(x, y), respectivamente.” 


Podemos filtrar Z(u, v) utilizando um filtro H(u, v) 
de forma que 


S(u, v) = H(u, v)Z(u, v) 
= Alu, v)F (u, v) + H(u, v)F (u, v)  (4.9-21) 
A imagem correspondente no domínio do espaço é 


s(x y) = 3 '{S(u, v)} 


= 3 {H(u, v)F(u, v)} 


+ SH{H(u, v)F (u, v)} (4.9-22) 
Dados 
i'(x, y) = S HH(u, v)F (u, v)} (4.9-23) 
e 
r'(x y) = SH H(u, v)F (u, v)} (4.9-24) 
podemos expressar a Equação 4.9-22 na forma 
s(x, y) = i'(x y) + r'(x, y) (4.9-25) 


* Se uma imagem f(x, y) com intensidades no intervalo [0, L- 1] 
tiver qualquer valor 0, um 1 deve ser adicionado a cada elemento 
da imagem para evitar ter de lidar com In(0). O valor 1 é, então, 
subtraído no final do processo de filtragem. 


Finalmente, como z(x, y) foi formada pelo cálculo 
do logaritmo natural da imagem de entrada, revertemos 
o processo calculando o exponencial do resultado filtrado 
para formar a imagem de saída: 


g(x, y) = e» 
= Dery) 
= 1, (x, yir y) (4.9-26) 
sendo 
i,(x, y) =e (4.9-27) 
e 
r(x, y) =e (4.9-28) 


os componentes de iluminação e refletancia da imagem 
de saída (processada). 


O método de filtragem que acabamos de deduzir é 
resumido na Figura 4.60. Esse método se baseia em um 
caso especial de uma classe de sistemas conhecidos como 
sistemas homomórficos. Nesta aplicação particular, a chave 
para a metodologia é a separação dos componentes de 
iluminação e refletância realizada na forma mostrada na 
Equação 4.9-20. A função do filtro homomórfico H(u, v) pode, 
então, atuar sobre esses componentes separadamente, 
como indicado pela Equação 4.9-21. 


O componente de iluminação de uma imagem ge- 
ralmente é caracterizado por variações espaciais suaves, 
enquanto o componente de refletância tende a variar 
abruptamente, particularmente nas junções de diferentes 
objetos. Essas características levam a associar as baixas fre- 
quéncias da transformada de Fourier do logaritmo de uma 
imagem à iluminação, e as altas frequências com a refle- 
tância. Apesar de essas associações serem aproximações 
gerais, elas podem ser utilizadas como uma vantagem na 
filtragem de imagens, como ilustra o Exemplo 4.22. 


Um controle significativo pode ser obtido sobre os 
componentes da iluminação e refletância com um filtro 
homomórfico. Esse controle requer a especificação de uma 
função de filtro H(u, v) que afeta os componentes de alta 
e baixa frequência da transformada de Fourier de formas 
diferentes e controláveis. A Figura 4.61 mostra um corte 
transversal de um filtro como esse. Se os parâmetros y, e 
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Yy forem escolhidos de forma que 7, < 1 ey, > 1, a função 
filtro na Figura 4.61 tende a atenuar a contribuição das 
baixas frequências (iluminação) e ampliar a contribuição 
das altas frequências (refletância). O resultado final é a 
compressão da faixa dinâmica e o realce de contraste si- 
multaneamente. 


O formato da função da Figura 4.61 pode ser aproxi- 
mado utilizando a fórmula básica de um filtro passa-alta. 
Por exemplo, utilizar uma forma ligeiramente modificada 
do filtro passa-alta gaussiano leva à função 
(4.9-29) 


D*(u,v)/D$] ] 


H(u,v)= (Ya =) e" 
na qual D(u, v) é definida na Equação 4.8-2, e a constante 
c controla a inclinação da função à medida que ela realiza 
a transição entre y e Yp Esse filtro é similar ao filtro de 
ênfase de alta frequência discutido na seção anterior. 


TY 


= 
Exemplo 4.22 Realce da imagem utilizando a filtragem 
homomórfica. 


A Figura 4.62 (a) mostra uma tomografia por emissão 
de pósitrons (PET, de positron emission tomography) de corpo 
total de tamanho 1.162 x 746 pixels. A imagem é ligeira- 
mente borrada e muitas de suas características de baixa in- 
tensidade são obscurecidas pela alta intensidade dos “pontos 
claros” que dominam a faixa dinâmica do monitor. (Esses 
pontos claros foram causados por um tumor no cérebro e 
outro no pulmão.) A Figura 4.62(b) foi obtida pela filtragem 
homomórfica da Figura 4.62(a) utilizando o filtro da Equa- 
ção 4.9-29 com, = 0,25, Yy = 2, c= 1 e D, = 80. Um corte 
transversal desse filtro se parece exatamente como a Figura 
4.61, com uma inclinação ligeiramente mais acentuada.” 


Observe na Figura 4.62(b) como os pontos claros, o cé- 
rebro e o esqueleto aparecem muito mais nítidos na imagem 
processada e como muito mais detalhes são visíveis nela. 
Ao reduzir os efeitos dos componentes da iluminação do- 
minante (os pontos claros), torna-se possível para a faixa 
dinâmica do monitor permitir que intensidades mais baixas 
passem a ser muito mais visíveis. De forma similar, como as 
altas frequências são realçadas pela filtragem homomórfica, 
os componentes de refletância da imagem (informações de 
borda) foram consideravelmente realçados. A imagem real- 
cada da Figura 4.62(b) representa uma melhora significativa 
em relação ao original. 

a 


Figura 4.60 Resumo dos passos na filtragem homomórfica. 


g(x,y) 


* Lembre-se que a filtragem utiliza o preenchimento da imagem, portanto o filtro é de tamanho P x Q. 
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H(u,v) 
4 


YH 


YE 


Figura 4.61 
de frequência e D(u, v) é a distância do centro. 


4.10 Filtragem seletiva 


Os filtros discutidos nas duas seções anteriores atuam 
sobre todo o retângulo de frequência. Existem algumas 
aplicações nas quais é interessante processar bandas espe- 
cíficas de frequências ou pequenas regiões do retângulo de 
frequência. Os filtros da primeira categoria são chamados 
de filtros rejeita-banda ou passa-banda, respectivamente. Os 
filtros da segunda categoria são chamados de filtros notch. 


4.10.1 Filtros rejeita-banda e passa-banda 


Esses tipos de filtros são fáceis de construir utilizan- 
do os conceitos das duas seções anteriores. A Tabela 4.6 


D(u,v) 


Corte transversal radial de uma função de filtro homomórfico circularmente simétrico. O eixo vertical está no centro do retângulo 


mostra as expressões para filtros rejeita-banda ideal, But- 
terworth e gaussiano, nas quais D(u,v) é a distância a partir 
do centro do retângulo de frequência, como definido na 
Equação 4.8-2, D, é o centro radial da banda, e W é a lar- 
gura da banda. A Figura 4.63(a) mostra um filtro rejeita- 
-banda gaussiano na forma de imagem, no qual preto é 0, 
e branco é 1. 

Um filtro passa-banda (BP, de bandpass) é obtido a 
partir do filtro rejeita-banda (BR, de bandreject) da mesma 
forma como obtivemos um filtro passa-alta a partir de um 
filtro passa-baixa: 


(4.10-1) 


Had, V) = 1 — H,,(u, Vv) 


Figura 4.62 
original: cortesia do Dr. Michael E. Casey, CTI PET Systems.) 


(a) Tomografia por emissão de pósitrons (PET) de corpo total. (b) Imagem realçada utilizando a filtragem homomórfica. (Imagem 


Tabela 4.6 
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Filtros rejeita-banda. Wé a largura da banda, D é a distância Dlu, v) a partir do centro do filtro, D, é a frequência de corte e né a 


ordem do filtro Butterworth. Mostramos D em vez de D(u, v) para simplificar a notação na tabela. 


Ideal Butterworth 


W W 
0 D,—-—<D<D,+— 
E ag Se ars 


1 para todos os outros casos 


A Figura 4.63(b) mostra um filtro passa-banda 
gaussiano na forma de imagem. 


4.10.2 Filtros notch 


Os filtros notch (chanfro) sao os filtros seletivos mais 
úteis. Um filtro rejeita-notch (ou passa) frequências em 
uma região predefinida em relação ao centro do retângulo 
de frequência. Filtros de deslocamento de fase zero devem 
ser simétricos em relação à origem, de forma que um notch 
com centro em (uy v,) deve ter um notch correspondente 
na posição (—u,, —v,). Os filtros rejeita-notch são construí- 
dos como produtos de filtros passa-alta cujos centros foram 
transladados aos centros de cada notch. A fórmula geral é: 


=] tur (U,V) 


1 


(4.10-2) 


na qual H (u, v) e H ,(u, v) são filtros passa-alta cujos cen- 
tros se posicionam em (u, v,) e (~u, —v,), respectiva- 
mente. Esses centros são especificados em relação ao cen- 
tro do retângulo de frequência, (M/2, N/2). Os cálculos 
de distância para cada filtro são, dessa forma, realizados 
utilizando as expressões 


Du, v) = [(u M/2 us + (v N/2 ue 


(4.10-3) 


Figura 4.63 
clareza e não faz parte dos dados. 


Gaussiano 
a 
H(u,v)=1—e 
e 
D_u, v) = [(u— M/2+u,)? + (v-N/2+¥v,)"]? (410-4) 


Por exemplo, a seguir temos um filtro rejeita-notch 
Butterworth de ordem n, contendo três pares de notches: 


piu, o 
1 
1+[D,,/D_,(u,v)}" 


Hy 
3 
IT 
k=1 


14[D,,/ a vif” (4.10-5) 


onde D, e D „são determinados pelas equações 4.10-3 e 
4.10-4. A constante D,, é a mesma para cada par de notches, 
mas pode ser diferente para diferentes pares. Outros filtros 
rejeita-notch são construídos da mesma forma, dependendo 
do filtro passa-alta escolhido. Como no caso dos filtros dis- 
cutidos anteriormente, um filtro passa-notch é obtido a partir 
de um filtro rejeita-notch utilizando a expressão 


Hu v) = 1 — Hp (u Y) (4.10-6) 


Como mostram os próximos três exemplos, uma das 
principais aplicações da filtragem notch é a propriedade de 
modificar seletivamente regiões locais da DFT. Esse tipo de 
processamento normalmente é realizado interativamente, 
trabalhando diretamente nas DFTs obtidas sem preenchi- 


(a) Filtro rejeita-banda gaussiano. (b) Filtro passa-banda correspondente. A borda preta fina em (a) foi acrescentada para fins de 
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mento. As vantagens de trabalhar interativamente com 
DFTs reais (em vez de termos de fazer a “conversão” de 
valores preenchidos para valores reais de frequência) 
compensam quaisquer erros de wraparound que possam 
resultar de não utilizar o preenchimento no processo de 
filtragem. Além disso, como mostraremos na Seção 5.4.4, 
técnicas de filtragem notch ainda mais poderosas do que as 
que discutimos aqui se baseiam em DFTs não preenchidas. 
Para se ter uma ideia de como os valores da DFT mudam 
em função do preenchimento, veja o Exercício 4.22. 


= 
Exemplo 4.23 Redução dos padrões moiré utilizando 
filtro notch. 
A Figura 4.64(a) é uma imagem digitalizada de um jor- 


nal da Figura 4.21, mostrando um padrão moiré proeminente, 
e a Figura 4.64(b) mostra seu espectro. Sabemos, a partir da 


Tabela 4.3, que a transformada de Fourier de um seno puro, 
que é uma função periódica, é um par de impulsos conjuga- 
dos simétricos. Os pontos claros simétricos mais acentuados, 
na forma de impulsos na Figura 4.64(b), são um resultado da 
periodicidade aproximada do padrão moiré. Podemos atenuar 
esses “impulsos” utilizando um filtro notch. 


A Figura 4.64(c) mostra o resultado da multiplicação 
da DFT da Figura 4.64(a) por um filtro rejeita-notch But- 
terworth com D, = 3 en = 4 para todos os pares de notch. 
O valor do raio foi selecionado (por meio de inspeção visual 
do espectro) para englobar completamente os picos de ener- 
gia (impulsos) e o valor de n foi selecionado para produzir 
notches com transições ligeiramente acentuadas. As posições 
do centro dos notches foram determinadas interativamente a 
partir do espectro. A Figura 4.64(d) mostra o resultado ob- 
tido com esse filtro utilizando o procedimento esboçado na 
Seção 4.7.3. A melhora é significativa, considerando a baixa 
resolução e a degradação da imagem original. 


Figura 4.64 
transformada de Fourier. (d) Imagem filtrada. 


(a) Imagem digitalizada de um jornal mostrando um padrão moiré. (b) Espectro. (c) Filtro rejeita-notch Butterworth multiplicado pela 


= 

Exemplo 4.24 Realce da imagem corrompida de 
Saturno obtida pela nave espacial Cassini 
utilizando filtro notch. 


A Figura 4.65(a) mostra uma imagem de parte dos 
anéis ao redor do planeta Saturno. Essa imagem foi obtida 
pela primeira nave espacial a entrar na órbita do planeta, a 
nave espacial Cassini. O padrão senoidal vertical foi provocado 
por um sinal AC sobreposto sobre o sinal da câmera de vídeo 
logo antes da digitalização da imagem. Esse foi um problema 
inesperado que corrompeu algumas imagens da missão. Fe- 
lizmente, esse tipo de interferência é relativamente fácil de 
corrigir por meio do pós-processamento. Uma técnica possi- 
vel é aplicação do filtro notch. 


A Figura 4.65(b) mostra o espectro da DFT. Uma análi- 
se meticulosa do eixo vertical revela uma série de pequenos 
picos de energia que correspondem a uma interferência qua- 
se senoidal. Uma abordagem simples é utilizar um filtro notch 
retangular bastante estreito, começando dos picos de energia 
de frequência mais baixa e se estendendo pelo restante do 


Figura 4.65 
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eixo vertical. A Figura 4.65(c) mostra um filtro como esse 
(branco representa 1, e preto, 0). A Figura 4.65(d) mostra o 
resultado da filtragem da imagem corrompida com esse fil- 
tro. Esse resultado representa uma melhora significativa em 
relação à imagem original. 

Isolamos as frequências do eixo vertical utilizando uma 
versão passa-notch do mesmo filtro [Figura 4.66(a)]. Então, 
como mostra a Figura 4.66(b), a IDFT dessas frequências re- 
sultou no padrão de interferência espacial em si. 

= 


4.11 Implementação 


Até agora, nos concentramos nos conceitos teóricos 
e em exemplos de filtragem no domínio da frequência. 
Neste ponto, deve estar claro que os requisitos computa- 
cionais nessa área de processamento de imagens não são 
triviais. Portanto, é importante desenvolver uma com- 
preensão básica de métodos pelos quais os cálculos da 
transformada de Fourier podem ser simplificados e acele- 


rados. Esta seção lida com tais questões. 


(a) Imagem 674 x 674 dos anéis de Saturno com uma interferência quase periódica. (b) Espectro: os picos de energia no eixo ver- 


tical próximo à origem correspondem ao padrão de interferência. (c) Um filtro rejeita-notch vertical. (d) Resultado da filtragem. A borda preta fina 
em (c) foi acrescentada para fins de clareza e não faz parte dos dados. (Imagem original: cortesia do Dr. Robert A. West, Nasa/JPL.) 
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Figura 4.66 
cálculo da IDFT de (a). 


4111 Separabilidade da DFT 2-D 

Como mencionamos na Tabela 4.2, a DFT 2-D é 
separável em transformadas 1-D. Podemos expressar a 
Equação 4.5-15 como 


MA NA 
F(u,v) = N e PMN fx, yje P 
x=0 y=0 
MA . 
= F(x, vje P 
=“ (4.11-1) 
sendo 
NA . 
F(x, v) = X fix, yje P (4.11-2) 

y=0 


Para cada valor de x e para v= 0, 1, 2,..., N — 1, ve- 
mos que F(x, v) é simplesmente a DFT 1-D de uma linha 
de f(x,y). Variando x de 0 a M — 1 na Equação 4.11-2, cal- 
culamos um conjunto de DFTs 1-D para todas as linhas de 
fix, y). Os cálculos na Equação 4.11-1, de forma similar, 
são transformadas 1-D das colunas de F(x, v). 


Assim, concluímos que a DFT 2-D de f(x, y) pode 
ser obtida pelo cálculo da transformada 1-D de cada li- 
nha de f(x, y) e depois calculando a transformada 1-D 
ao longo de cada coluna do resultado.” Essa é uma im- 
portante simplificação, porque temos que lidar somente 
com uma variável por vez. Um desenvolvimento similar 
se aplica ao cálculo da IDFT 2-D utilizando a IDFT 1-D. 
Contudo, como mostraremos na próxima seção, pode- 
mos calcular a IDFT utilizando um algoritmo desenvol- 
vido para calcular a DFT. 


* Poderíamos ter expressado as equações 4.11-1 e 4.11-2 na forma 
de transformadas 1-D das colunas seguida pelas transformadas 
das linhas. O resultado final teria sido o mesmo. 


| 


(a) Resultado (espectro) da aplicação de um filtro passa-notch à DFT da Figura 4.65(a). (b) Padrão no domínio do espaço obtido pelo 


4.11.2 Cálculo da IDFT utilizando um algoritmo DFT 


Calcular o conjugado complexo de ambos os lados 
da Equação 4.5-16 e multiplicar os resultados por MN re- 
sulta em” 


MA NA 


MNF* (x,y) = D Fº (u, vje te 


u=0 v=0 


(4.11-3) 


Contudo, reconhecemos a fórmula do lado direito 
desse resultado como a DFT de F*(u, v). Logo, a Equação 
4.11-3 indica que, se substituirmos F*(u, v) em um algo- 
ritmo elaborado para calcular a transformada direta de 
Fourier 2-D, o resultado sera MNf*(x, y). Calcular o con- 
jugado complexo e dividir esse resultado por MN resulta 
em f*(x, y), que é o inverso de F(u, v). 


+ Da 


Calcular o inverso 2-D de um algoritmo de DFT di- 
reta 2-D baseada em passes sucessivos de transformadas 
1-D (como na seção anterior) é uma causa frequente 
de confusão envolvendo os conjugados complexos e a 
multiplicação por uma constante, e nenhum dos cálcu- 
los é realizado nos algoritmos 1-D. O principal conceito 
que se deve ter em mente é que simplesmente incluí- 
mos F*(u, v) em qualquer algoritmo direto que possamos 
ter. O resultado será MNf*(x, y). Tudo o que precisa- 
mos fazer com esse resultado para obter f(x, y) é pegar 
seu conjugado complexo e dividi-lo pela constante MN. 
Obviamente, quando f(x, y) é real, como costuma ser o 


caso, f*(x, y) = f(x, y). 


“ A multiplicação por MN nesse cálculo assume as formas das equa- 
ções 4.5-15 e 4.5-16. Um esquema diferente de multiplicação 
dessa constante é necessário se as constantes forem distribuídas 
diferentemente entre as transformadas direta e inversa. 


4.11.3 A transformada rápida de Fourier (FFT) 


Trabalhar no domínio da frequência não seria práti- 
co se precisássemos implementar diretamente as equações 
4.5-15 e 4.5-16. A implementação pela força bruta des- 
sas equações requer somatório e adições da ordem de 
(MN)?. Para imagens de tamanho moderado (digamos, 
1.024 x 1.024 pixels), isso implica a ordem de um tri- 
lhão de multiplicações e adições para apenas uma DFT, 
excluindo os exponenciais que poderiam ser calculados 
uma vez e armazenados em uma look-up table. Isso repre- 
sentaria um desafio até mesmo para supercomputadores. 
Sem a descoberta da transformada rápida de Fourier (FFT, 
de fast Fourier transform), que reduz os cálculos à ordem de 
MNlog,MN multiplicações e adições, é seguro dizer que 
o material apresentado neste capítulo teria pouco valor 
prático. As reduções computacionais permitidas pela FFT 
são realmente impressionantes. Por exemplo, calcular a 
FFT 2-D de uma imagem 1.024 x 1.024 demandaria uma 
ordem de 20 milhões de multiplicações e adições, o que 
representa uma redução significativa em relação ao tri- 
lhão de cálculos mencionados anteriormente. 


Apesar de a FFT ser um tópico amplamente cober- 
to na literatura sobre processamento de sinais, esse tema 
é tão importante no nosso trabalho que este capítulo seria 
incompleto se não apresentássemos pelo menos uma intro- 
dução explicando por que a FFT funciona. O algoritmo que 
selecionamos para atingir esse objetivo é chamado método 
de duplicação sucessiva, — o algoritmo original que levou ao 
nascimento de toda uma indústria. Esse algoritmo particu- 
lar presume que o número de amostras seja um número 
inteiro e potência de 2, mas isso não é um requisito geral de 
outras abordagens (Brigham, 1988). Sabemos, com base na 
Seção 4.11.1, que as DFTs 2-D podem ser implementadas 
por passes sucessivos da transformada 1-D, de forma que só 
precisamos nos concentrar na FFT de uma variável. 


Ao lidar com derivações da FFT, costuma-se expres- 
sar a Equação 4.4-6 na forma 


F(u)= S fogus (4.11-4) 
x=0 
u=0,1,...,M-— 1, na qual 
W, = e Paim (4.11-5) 
e M seja da forma 
M=2" (4.11-6) 


com n sendo um número inteiro positivo. Assim, M pode 
ser expresso como 


M=2K (4.11-7) 
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com K também sendo um número inteiro positivo. Subs- 
tituir a Equação 4.11-7 na Equação 4.11-4 resulta em 


2K-1 


F(u)= X fow 


KA KA 
=5 Se Wi +S fx + WI (4.11-8) 
x=0 x=0 


Contudo, pode ser demonstrado, utilizando a Equa- 
ção 4.11-5, que Wi&= Wi, de forma que a Equação 


2K 
4.11-8 pode ser expressa como 


KI K-1 
F(u) =Y f(2xWE+ > f(2x+IWEW', (411-9) 
x=0 x=0 
Definir 
K-1 
FU) = > f(2x)Wwe (4.11-10) 


x= 


parau=0,1,2,...,K-—- l,e 


KA 
Fp) = J fOx+ DW' (4.11-11) 
parau=0,1,2,..., K — 1, reduz a Equação 4.11-9 a 


Fu) = FU) + Sima Wy, (4-11-12) 


4 : u+M u u+M u 
Além disso, como Wg” =W, e Wi)" = -Wy as 
equações 4.11-10 a 4.11-12 nos dão 
F(u+K)= F.,,,(u) — F, 


mpar (Mox (4-11-13) 


A análise das equações 4.11-10 a 4.11-13 revela 
algumas propriedades interessantes dessas expressões. 
Uma transformada de M pontos pode ser calculada divi- 
dindo a expressão original em duas partes, como indicado 
nas equações 4.11-12 e 4.11-13. O cálculo da primeira 
metade de F(u) requer a avaliação das duas transforma- 
das de (M/2) pontos definidas nas equações 4.11-10 e 
4.11-11. Os valores resultantes de F (1) € F,,.,,.,(M) são, 
então, substituídos na Equação 4.11-12 para obter F(u) 
para u = 0, 1, 2, ... , (M/2 — 1). A outra metade resul- 
ta diretamente da Equação 4.11-13 sem a necessidade de 
cálculos adicionais de transformadas. 


Para analisar as implicações computacionais desse 
procedimento, seja m(n) e a(n) o número de multiplica- 
ções e adições complexas, respectivamente, necessárias 
para implementá-la. Como antes, o número de amostras 
é 2”, com n sendo um número inteiro positivo. Suponha 
primeiro que n = 1. Uma transformada de dois pontos 
requer o cálculo de F(0); então, F(1) resulta da Equação 
4.11-13. A obtenção de F(0) requer o cálculo de F (0) 


par 


e F (0). Neste caso, K = 1, e as equações 4.11-10 e 


ímpar 
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4.11-11 são transformadas de 1 ponto. Contudo, como a 
DFT de um único ponto de amostra é a própria amostra, 
nenhuma multiplicação e adição é necessária para ob- 
ter F (0) € Frmpar(0). Uma multiplicação de F mpar(0) pOr 
W? e uma adição resultam em F(0) a partir da Equação 
4.11-12. Então, F(1) resulta da Equação 4.11-13 com 
mais uma adição (considera-se que a subtração seja o 
mesmo que a adição). Como F npa (OW já foi calculado, 
o número total de operações necessárias para uma trans- 
formada de dois pontos consiste em m(1) = uma multi- 
plicação e a(1) = duas adições. 

O próximo valor permitido para n é 2. De acordo 
com o desenvolvimento anterior, uma transformada de 
quatro pontos pode ser dividida em duas partes. A pri- 
meira metade de F(u) requer a avaliação de duas trans- 
formadas de dois pontos, como dado nas equações 4.11- 
10 e 4.11-11 para K = 2. Como observamos no parágrafo 
anterior, uma transformada de dois pontos requer m(1) 
multiplicações e a(1) adições, de forma que a avaliação 
dessas duas equações requer um total de 2m(1) multi- 
plicações e 2a(1) adições. Duas multiplicações e adições 
adicionais são necessárias para obter F(0) e F(1) a partir 
da Equação 4.11-12. Como F,  (u) W,, já foi calculado 
para u = (0, 1), duas outras adições nos darão F(2) e F(3). 
O total é, então, m(2) = 2m(1) + 2 e a(2) = 2a(1) + 4. 

Quando n é igual a 3, duas transformadas de qua- 
tro pontos são levadas em consideração na avaliação de 
Foal) € Frnpa(4). Elas requerem 2m(2) multiplicações e 
2a(2) adições. Quatro outras multiplicações e oito outras 
adições resultam na transformada completa. O total, en- 
tão, é m(3) = 2m(2) + 4 e a(3) = 2a(2) + 8. 

Dar continuidade a esse argumento para qualquer 
valor de numero inteiro positivo de n leva a expressões 
recursivas para o número de multiplicações e adições ne- 
cessárias para implementar a FFT: 


m(n) =2m(n—1)+2"-! n>1 (4.11-14) 


a(n) =2a(n—1) +2" n>1 (411-15) 


sendo m(0) = 0 e a(0) = 0, porque a transformada de um 
único ponto não requer quaisquer adições ou multipli- 
cações. 

A implementação das equações 4.11-10 a 4.11-13 
constitui a duplicação sucessiva do algoritmo da FFT. Esse 
nome é proveniente do método de cálculo de uma trans- 
formada de dois pontos a partir de duas transformadas de 
um ponto, uma transformada de quatro pontos a partir 
de duas transformadas de dois pontos e assim por diante, 
para qualquer M igual a um número inteiro potência de 2. 


Deixamos como um exercício (Exercício 4.41) a demons- 
tração de 


m(n)=>Mlog, M (4.11-16) 


a(n) = Mlog, M (4.11-17) 


A vantagem computacional da FFT em relação a 
uma implementação direta da DFT 1-D é definida como 


M? 
E M log, M 


o M 
log, M 


c(M) 


(4.11-18) 


Como se presume que M = 2", podemos elaborar a 
Equação 4.11-18 em termos de n: 


n 


c(n) = — 
n 


(4.11-19) 


A Figura 4.67 mostra um gráfico dessa função. É 
evidente que a vantagem computacional aumenta rapi- 
damente em função de n. Por exemplo, quando n = 15 
(32.768 pontos), a FFT tem aproximadamente uma vanta- 
gem de 2.200 para 1 sobre a DFT. Dessa forma, poderíamos 
esperar que a FFT possa ser calculada aproximadamente 
2.200 vezes mais rapidamente do que a DFT no mesmo 
computador. 


Existem tantos textos excelentes que cobrem de- 
talhes da FFT que não nos deteremos mais neste tópico 
(veja, por exemplo, Brigham, 1988). Praticamente todos 
os pacotes computacionais de processamento de imagens 
e de sinais generalizaram implementações da FFT que 
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Figura 4.67 Vantagem computacional da FFT sobre uma implemen- 
tação direta da DFT 1-D. Observe que a vantagem aumenta rapidamente 
em função de n. 


lidam com casos nos quais o número de pontos não é 
uma potência de número inteiro de 2 (à custa de um cál- 
culo menos eficiente). Programas de FFT gratuitos tam- 
bém estão disponíveis, principalmente na Internet. 


4.11.4 Alguns comentários sobre o design de filtros 


A abordagem de filtragem discutida neste capítulo 
se baseia estritamente nos fundamentos, e o foco foi man- 
tido especificamente em explicar os efeitos da filtragem 
no domínio da frequência da forma mais clara possível. 
Não conhecemos um modo melhor de fazer isso do que 
abordar a filtragem como fizemos aqui. É possível ver 
esse desenvolvimento como a base para o desenvolvi- 
mento do “protótipo” de um filtro. Em outras palavras, 
dado um problema para o qual queremos encontrar um 
filtro, a abordagem do domínio da frequência é uma fer- 
ramenta ideal para a experimentação, é rápida e fornece 
total controle sobre os parâmetros do filtro. 


Uma vez que o filtro para uma aplicação específica foi 
encontrado, costuma ser de interesse implementar o fil- 
tro diretamente no domínio do espaço, utilizando firmware 
e/ou hardware. Este tópico está fora do escopo deste livro. 
Petrou e Bosdogianni (1999) apresentam uma interes- 
sante relação entre filtros de domínio da frequência 2-D 
e os filtros digitais correspondentes. Sobre o design dos 
filtros digitais 2-D, veja Lu e Antoniou (1992). 


Resumo 


O conteúdo apresentado neste capítulo é uma pro- 
gressão partindo da amostragem para a transformada de 
Fourier e depois para a filtragem no domínio da frequên- 
cia. Alguns dos conceitos, como o teorema de amostragem, 
fazem muito pouco sentido se não forem explicados no 
contexto do domínio da frequência. O mesmo se aplica a 
efeitos como o aliasing. Dessa forma, o conteúdo desen- 
volvido nas seções anteriores constitui bases sólidas para 
a compreensão dos fundamentos do processamento de 
sinais digitais. Tomamos um especial cuidado em desen- 
volver o material começando com os princípios básicos, 
de forma que qualquer leitor com modestos conhecimentos 
de matemática esteja em posição não apenas de absorver 
o conteúdo, mas também de aplicá-lo. 


Um segundo objetivo principal deste capítulo foi a 
explicar a transformada discreta de Fourier e sua utili- 
zação para a filtragem no domínio da frequência. Para 
isso, tivemos de apresentar o teorema da convolução. 
Esse resultado constitui a base dos sistemas lineares e 
fundamenta muitas técnicas de restauração que serão ex- 
plicadas no Capítulo 5. Os tipos de filtros que discutimos 
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aqui são representativos do que é possível encontrar na 
prática. O principal objetivo da apresentação desses fil- 
tros, contudo, foi demonstrar como é simples formular e 
implementar filtros no domínio da frequência. Enquanto 
a implementação final de uma solução normalmente se 
baseia em filtros espaciais, as ideias obtidas pelo trabalho 
no domínio da frequência como uma orientação na se- 
leção de filtros espaciais são extremamente importantes. 


Apesar de a maioria dos exemplos de filtragem 
apresentados neste capítulo pertencer à área de realce de 
imagens, os procedimentos em si são genéricos e serão 
extensivamente utilizados nos capítulos subsequentes. 


Referências e leituras complementares 


Para leituras adicionais sobre o conteúdo da Seção 
4.1, veja Hubbard (1998). Os livros de Bracewell (2000, 
1995) apresentam boas introduções para a transformada 
contínua de Fourier e sua extensão a duas dimensões para 
o processamento de imagens. Esses dois livros, bem como 
Lim (1990), Castleman (1996), Petrou e Bosdogianni 
(1999), Brigham (1988) e Smith (2003), proporcionam 
amplas bases para a maior parte das discussões das se- 
ções 4.2 a 4.6. Para uma visão geral dos primeiros estudos 
sobre o tópico dos padrões moiré, veja Oster e Nishijima 
(1963). Creath e Wyant (1992) discutem os mais recentes 
avanços na área trinta anos depois. As questões de amos- 
tragem, aliasing e reconstrução de imagens discutidas na 
Seção 4.5 também são temas de grande interesse na com- 
putação gráfica, como exemplificado por Shirley (2002). 


Para material adicional sobre o conteúdo das seções 
4.7 a 4.11, veja Castleman (1996), Pratt (2001) e Hall 
(1979). Para saber mais sobre os sensores de aquisição 
de imagens pela nave espacial Cassini (Seção 4.10.2), veja 
Porco, West et al. (2004). Métodos de abordagem para 
os problemas de implementação de filtros (como o rin- 
ging) ainda são temas de interesse, como exemplificado 
por Bakir e Reeves (2000). Para saber mais sobre a más- 
cara de nitidez e filtragem de ênfase de alta frequência, 
veja Schowengerdt (1983). O material sobre filtragem 
homomórfica (Seção 4.9.5) se baseia em um artigo de 
Stockham (1972); veja também os livros de Oppenheim e 
Schafer (1975) e Pitas e Venetsanopoulos (1990). Brink- 
man et al. (1998) combinam a máscara de nitidez e a 
filtragem homomórfica para realce de imagens de resso- 
nância magnética. 

Como observamos na Seção 4.1.1, a “descoberta” 
da transformada rápida de Fourier (Seção 4.11.3) repre- 
sentou um importante marco na popularização da DFT 
como uma ferramenta fundamental de processamento de 
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sinais. Nossa apresentação da FFT na Seção 4.11.3 se ba- 
seia em um artigo de Cooley e Tuckey (1965) e no livro de 
Brigham (1988), que também discute várias implemen- 
tações da FFT, inclusive com outras bases diferentes de 2. 
A formulação da transformada rápida de Fourier costuma 
ser creditada a Cooley e Tukey (1965). No entanto, a FFT 
tem uma interessante história que vale a pena esboçar 
aqui. Em resposta ao artigo de Cooley-Tukey, Rudnick 
(1966) informou que vinha utilizando uma técnica simi- 
lar, cujo número de operações também era proporcional 
a Nlog,N e que se baseava em um método publicado por 
Danielson e Lanczos (1942). Estes autores, por sua vez, 
fizeram referência a Runge (1903, 1905) como a fonte 
de sua técnica. Os dois últimos artigos, com as notas de 
aulas de Runge e Konig (1924), contêm as vantagens 
computacionais essenciais dos algoritmos FFT atuais. 
Técnicas similares também foram publicadas por Yates 
(1937), Stumpff (1939), Good (1958) e Thomas (1963). 
Um artigo de Cooley, Lewis e Welch (1967a) apresenta 
um resumo histórico e uma interessante comparação de 
resultados anteriores ao artigo de 1965 de Cooley-Tukey. 


O algoritmo FFT da Seção 4.11.3 provém do artigo 
original de Cooley e Tukey (1965). Veja Brigham (1988) 
e Smith (2003) para leituras complementares. Para o 
design de filtros digitais (Seção 4.11.4) com base nas 
formulações do domínio da frequência discutidas neste 
capítulo, veja Lu e Antoniou (1992) e Petrou e Bosdo- 
gianni (1999). Para a implementação em software de 
muitas das técnicas discutidas nas seções 4.7 a 4.11, veja 
Gonzalez, Woods e Eddins (2004). 


Exercícios” 


4.1 Repita o Exemplo 4.1, mas utilizando a função f(t) = A 
para 0 < t< We f(t) = 0 para todos os outros valores de 
t. Explique a razão para quaisquer diferenças entre os 
seus resultados e os resultados no exemplo. 


*4.2 Mostre que na Equação 4.4-2 F(z) é infinitamente pe- 
riódica em ambas as direções, com período 1/AT. 

*4,3 É possível demonstrar (Bracewell, 2000) que 1 <> ó(u) 
e ó(t) & 1. Utilize a primeira dessas propriedades e a 
propriedade de translação da Tabela 4.3 para demons- 
trar que a transformada de Fourier da função contí- 
nua f(t) = sen(27nt), na qual n é um número real, é 
F(u) = (/2)[6(u + n) — ó(u — n). 

4.4 Considere a função continua f(t) = sen(27n 1). 
*(a) Qual é o período de f(t)? 
*(b) Qual é a frequência de f(t)? 
* Soluções detalhadas dos exercícios marcados com asterisco 


podem ser encontrados no site do livro. O site também contém 
projetos sugeridos com base no conteúdo deste capítulo. 


A transformada de Fourier F(u), de f(t) é puramente 
imaginária (Exercício 4.3), e, como a transformada 
dos dados da amostra consiste em cópias periódicas de 
F(u), a transformada dos dados da amostra, F(p), tam- 
bém será puramente imaginária. Esboce um diagrama 
similar à Figura 4.6, e responda às seguintes questões 
com base em seu diagrama (considere que a amostra- 
gem tem início em f= 0). 

*(c) Qual seria a aparência da função amostrada e sua 
transformada de Fourier em geral se f(t) fosse 
amostrada em uma taxa mais alta do que a taxa de 
Nyquist? 

(d) Qual seria a aparência da função de amostragem 
em geral se f(t) fosse amostrada em uma taxa mais 
baixa do que a taxa de Nyquist? 


(e) Qualseria a aparência da função de amostragem se 
fit) fosse amostrada na taxa de Nyquist com amos- 
tras tiradas em t= 0, AT, 2AT, ...? 


*4.5 Comprove a validade do teorema de convolucao 1-D 
de uma variável contínua, como nas equações 4.2-21 e 
4.2-22. 


4.6 Complete os passos que levaram da Equação 4.3-11 à 
Equação 4.3-12. 

4.7 Como mostra a figura a seguir, a transformada de Fou- 
rier de uma função “tent” (a esquerda) é uma função 
sinc elevada ao quadrado (à direita). Desenvolva um 
argumento demonstrando que a transformada de Fou- 
rier de uma função tent pode ser obtida a partir da 
transformada de Fourier de uma função retangular. 
(Dica: O tent em si pode ser gerado a partir da convolu- 
ção de duas funções retangulares iguais.) 


4.8 (a) Demonstre que as equações 4.4-4 e 4.4-5 consti- 
tuem um par de transformadas de Fourier. 

*(b) Repita (a) para as equações 4.4-6 e 4.4-7. Você 

precisará da propriedade de ortogonalidade das 

exponenciais a seguir para as duas partes desse 


problema: 

MA = 
Sere re _ M ser=u 
= 0 senao 


4.9 Comprove a validade das equações 4.4-8 e 4.4-9. 


*4,10 Comprove a validade do teorema da convolução dis- 
creta de uma variável (veja as equações 4.2-21, 4.2- 
22 e 44-10). Você precisará utilizar as propriedades 
de translação f(x)e?™*™ <> F(u — uo) e, inversamente, 
flx — x )&F(u)e mom, 


*4.11 Escreva uma expressão para a convolução contínua 2-D. 


4.12 Considere uma imagem de um “tabuleiro de dama” na 
qual cada quadrado tem 1 x 1 mm. Presumindo que 
a imagem se estende infinitamente nas duas direções 
coordenadas, qual é a mínima taxa de amostragem (em 
amostras/mm) necessária para evitar o aliasing? 

4.13 Sabemos, a partir da discussão da Seção 4.5.4, que re- 
duzir uma imagem pode causar aliasing. Isso também 
se aplica à ampliação? Explique. 

“4.14 Prove que tanto a transformada continua quanto a dis- 
creta de Fourier 2-D são operações lineares (para uma 
definição de linearidade, veja a Seção 2.6.2). 

4.15 Você recebe um programa “fechado” que calcula o par 
DFT 2-D. No entanto, não se sabe em quais das duas 
equações o termo 1/MN é incluído ou se ele foi dividido 
em duas constantes 1/ VMN diante tanto da transfor- 
mada direta quanto da inversa. Como saber onde o(s) 
termo(s) está(ão) incluído(s) se essa informação não 
está disponível na documentação do programa? 

4.16 *(a) Comprove a validade da propriedade de transla- 

ção na Equação 4.6-3. 
(b) Comprove a validade da Equação 4.6-4. 


4.17 É possível inferir, a partir do Exercício 4.3, que 1 & ô(u, v) 
e ó(t, z) & 1. Utilize a primeira dessas propriedades e a 
propriedade de translação da Tabela 4.3 para demons- 
trar que a transformada de Fourier da função contínua 
ft, 2) = A sen(2xuçt + 27v,57) É 


F(u,v) = 5 [64+ 07 + vo) = Qu pov = ¥9)] 
4.18 Demonstre que a DFT da função discreta f(x,y) = 1 é 


30) = 60) = cando 


para os outros casos 


4.19 Demonstre que a DFT da função discreta f(x, y) = 
sen(27v,x + 2nv,y) é 


F(u,v)= 5 [6 + Muy ,v + Nvy)— 6(u — Mu, ,v — Nv, )] 


4.20 Os exercícios a seguir se relacionam às propriedades 
apresentadas na Tabela 4.1. 


(a) Prove a validade da propriedade 2. 
Prove a validade da propriedade 4. 
Prove a validade da propriedade 5. 
Prove a validade da propriedade 7. 
Prove a validade da propriedade 9. 
f) Prove a validade da propriedade 10. 
“(g) Prove a validade da propriedade 11. 
(h) Prove a validade da propriedade 12. 
(i) Prove a validade da propriedade 13. 


“4.21 A necessidade de preenchimento da imagem quando 


se realiza a filtragem no domínio da frequência foi dis- 
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cutida na Seção 4.6.6. Demonstramos, nessa seção, que 
as imagens precisam ser preenchidas acrescentando ze- 
ros às extremidades das linhas e colunas da imagem 
(veja a imagem a seguir à esquerda). Você acha que fa- 
ria alguma diferença se, em vez disso, centralizássemos 
a imagem e a cercássemos de um contorno de zeros 
(veja a imagem à direita), mas sem alterar o número 
total de zeros utilizados? Explique. 


“4.22 Os dois espectros de Fourier mostrados são da mesma 
imagem. O espectro à esquerda corresponde à imagem 
original, e o espectro à direita foi obtido depois que a 
imagem foi preenchida com zeros. Explique o aumento 
significativo da intensidade do sinal ao longo dos eixos 
vertical e horizontal do espectro mostrado à direita. 


+ 


4.23 Sabemos, a partir da Tabela 4.2, que o termo dc, F(0, 
0), de uma DFT é proporcional ao valor médio de sua 
imagem correspondente no domínio do espaço. Consi- 
dere que o tamanho da imagem seja M x N. Suponha 
que a imagem seja preenchida com zeros para atingir 
o tamanho P x Q, onde P e Q são dados nas equações 
4.6-31 e 4.6-32. Suponha que F (0, 0) expresse o ter- 
mo dc da DFT da função preenchida. 


*(a) Qual é a razão entre os valores médios das imagens 
original e preenchida? 


(b) F (0,0) é igual a F(0,0)? Prove matematicamente a 
sua resposta. 


4.24 Prove as propriedades de periodicidade (entrada 8) da 
Tabela 4.2. 


4.25 Os exercícios a seguir se relacionam às entradas da Ta- 
bela 4.3. 


*(a) Prove a validade do teorema da convolução discre- 
ta (entrada 6) para o caso 1-D. 


(b) Repita (a) para 2-D. 
*(c) Prove a validade da entrada 7. 
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*(d) Prove a validade da entrada 12. 


(Observação: Os Exercícios 4.18, 4.19 e 4.31 também se 
relacionam à Tabela 4.3.) 


4.26 (a) Demonstre que o laplaciano de uma função con- 
tínua f(t, z) de variáveis contínuas t e z satisfaz ao 
seguinte par de transformadas de Fourier (veja a 
Equação 3.6-3 para uma definição do laplaciano): 


Vftt, 2) <> —4m(p2 + v) Flu, v) 


[Dica: Estude a entrada 12 da Tabela 4.3 e veja o 
Exercício 4.25(d).] 


*(b) A expressão de forma fechada mostrada anterior- 
mente é válida apenas para variáveis contínuas. 
No entanto, ela pode constituir a base para a im- 
plementação do laplaciano no domínio da frequên- 
cia discreta utilizando o filtro M x N 


H(u, v) = -4r (u + V?) 


para u = 0, 1, 2,...,M — lev=0, 1,2,..,N- 1. 
Explique como você implementaria esse filtro. 

(c) Como vimos no Exemplo 4.20, o resultado do lapla- 
ciano no domínio da frequência foi similar ao resul- 
tado da utilização de uma máscara espacial com um 
coeficiente central igual a —8. Explique a razão pela 
qual o resultado no domínio da frequência não foi 
similar ao resultado de utilizar uma máscara espacial 
com coeficiente central de —4. Veja a Seção 3.6.2 
sobre o laplaciano no domínio do espaço. 


*4.27 Considere uma máscara espacial 3 x 3 que calcula a 
média dos quatro vizinhos mais próximos de um ponto 
(x, y), mas exclui o ponto em si no cálculo da média. 


(a) Encontre o filtro equivalente, H(u, v), no dominio 
da frequência. 


(b) Mostre que seu resultado é um filtro passa-baixa. 


4.28 Com base na Equação 3.6-1, uma abordagem para apro- 
ximar a derivada discreta em 2-D se baseia no cálculo das 
diferenças da forma fix + 1, y) — f(x,y) e fx y+ 1) — fix, y). 
(a) Encontre o filtro equivalente, H(u, v), no dominio 

da frequência. 


(b) Demonstre que o seu resultado é um filtro passa- 
-alta. 


4.29 Encontre o filtro equivalente, H(u, v), que implementa 
no domínio da frequência a operação espacial realizada 
pela máscara laplaciana na Figura 3.37(a). 


"430 Você consegue pensar em uma forma de utilizar a 
transformada de Fourier para calcular (ou calcular par- 
cialmente) a magnitude do gradiente (Equação 3.6-11) 
para a utilização no cálculo da derivada de uma ima- 
gem? Se sua resposta for sim, sugira um método para 
fazer isso. Se a sua resposta for não, explique por quê. 


*4.31 Um filtro passa-baixa gaussiano continuo no dominio 
da frequência contínua tem a função de transferência 


H(u v)= Aço 


Demonstre que o filtro correspondente no domínio do 
espaço é 


IP? 
h(t, z) = A2ma*e 777 ETE) 


4.32 Como explicado na Equação 4.9-1, é possível obter a 
função de transferência, H,,, de um filtro passa-alta a 
partir da função de transferência de um filtro passa- 
-baixa (H,,) como 


Hp= 1-H 


P 


Utilizando as informações do Exercício 4.31, qual é a fór- 
mula do filtro passa-alta gaussiano no domínio do espaço? 


4.33 Considere as imagens mostradas. A imagem à direita 
foi obtida: (a) multiplicando a imagem à esquerda por 
(—1)**” (b) calculando a DFT; (c) calculando o conju- 
gado complexo da transformada; (d) calculando a DFT 
inversa; e (e) multiplicando a parte real do resultado 
por (—1)*. Explique (matematicamente) por que a 
imagem à direita tem essa aparência. 


D.I.Pid'I'"q 


4.34 Qual é a fonte dos pontos claros aproximadamente pe- 
riódicos no eixo horizontal da Figura 4.41(b)? 


*4,35 Cada filtro da Figura 4.53 tem um intenso pico em seu 
centro. Explique as fontes desses picos. 


4.36 Considere as imagens mostradas à seguir. A imagem à 
direita foi obtida por meio da filtragem passa-baixa, ima- 
gem à esquerda com um filtro passa-baixa gaussiano e 
depois aplicando a filtragem passa-alta do resultado com 
um filtro passa-alta gaussiano. A dimensão das imagens 
é 420 x 344, e D, = 25 foi utilizado para ambos os filtros. 


(a) Explique por que a parte central do anel no dedo 
da figura à direita parece tão clara e sólida, con- 
siderando que a característica dominante da ima- 
gem filtrada consiste em bordas nos contornos ex- 
ternos dos objetos (isto é, dedos, ossos do pulso) 
com áreas escuras entre eles. Em outras palavras, 
não seria de se esperar que o filtro passa-alta fizes- 
se com que a área constante do anel fosse escura, 
já que um filtro passa-alta elimina o termo dc? 


(b) Você acha que o resultado teria sido diferente se a 
ordem do processo de filtragem fosse invertida? 


4.37 


4.38 


(Imagem original: cortesia do Dr. Thomas R. Gest, Divisao de Ciéncias 
Anatômicas, Faculdade de Medicina da Universidade de Michigan.) 
Dada uma imagem de tamanho M x N, você é solicitado 
a realizar um experimento que consiste em submeter 
repetidamente uma imagem a um filtro passa-baixa 
gaussiano com uma determinada frequência de corte 
D, Você pode ignorar os erros de arredondamento nos 
cálculos computacionais. Suponha que c p expresse o 
menor número positivo representável na máquina na 
qual o experimento proposto será conduzido. 


*(a) Seja K o número de aplicações do filtro. Você tem 
como prever (sem realizar o experimento) qual 
será o resultado (imagem) para um valor suficien- 
temente alto de K? Se a resposta for sim, qual é o 
resultado? 


(b) Deduza uma expressão para o valor mínimo de K 
que assegurará o resultado que você previu. 


Considere a sequência de imagens mostrada. A ima- 
gem à esquerda é um segmento de uma imagem de 
raios X de uma placa de circuito impresso comercial. As 
imagens que se seguem a ela são, respectivamente, os 
resultados de aplicar na imagem 1, 10 e 100 vezes um 
filtro passa-alta gaussiano com D, = 30. O tamanho das 
imagens é de 330 x 334 pixels, com cada pixel sendo 
representado por 8 bits de níveis de cinza. As imagens 
foram ajustadas para a exibição, mas isso não tem efei- 
to algum sobre o resultado do exercício. 


(a) Aparentemente, com base nas imagens, as mu- 
danças deixarão de ocorrer depois de um número 
finito de vezes que o filtro for aplicado. Demonstre 
se isso se aplica ou não ao caso em questão. Você 
pode ignorar erros de arredondamento nos cálcu- 
los. Suponha que c | expresse o menor número 
positivo representável na máquina na qual o ex- 
perimento proposto será conduzido. 

(b) Se você determinou em (a) que as mudanças 

deixariam de ocorrer após um número finito de 

repetições, calcule o valor mínimo desse número. 


Filtragem no dominio da frequência 203 


(Imagem original: cortesia do Dr. Joseph E. Pascente, Lixi, Inc.) 


4.39 Como ilustrado na Figura 4.59, combinar a ênfase de 


alta frequência com a equalização de histograma é um 
método eficaz para realizar o aguçamento e o realce de 
contraste. 


(a) Demonstre se faz ou não diferença qual processo é 
aplicado primeiro. 

(b) Se a ordem de aplicação dos processos fizer diferen- 
ça, dê uma justificativa para utilizar um método ou 
o outro primeiro. 


4.40 Utilize o filtro passa-alta Butterworth para desenvolver 


um filtro homomórfico que tenha o mesmo formato 
geral que o filtro da Figura 4.61. 


“4.41 Demonstre a validade das equações 4.11-16 e 4.11-17. 


(Dica: Utilize a prova por indução.) 


4.42 Suponha que você receba um conjunto de imagens ge- 


4,43 


radas por um experimento que lida com a análise de 
eventos estelares. Cada imagem contém uma série 
de pontos claros e amplamente dispersos correspon- 
dentes a estrelas em uma região pouco ocupada do 
universo. O problema é que as estrelas quase não são 
visíveis, em virtude da iluminação sobreposta resul- 
tante da dispersão atmosférica. Se essas imagens forem 
modeladas como o produto de um componente de 
iluminação constante com um conjunto de impulsos, 
desenvolva um procedimento de realce baseado na fil- 
tragem homomórfica para salientar os componentes de 
imagem correspondentes às estrelas. 


Um talentoso técnico da área médica recebe a missão 
de inspecionar uma determinada classe de imagens ob- 
tidas por um microscópio eletrônico. Para simplificar 
a tarefa de inspeção, o técnico decide utilizar o realce 
de imagem digital e, para esse fim, analisa um conjun- 
to de imagens representativas e identifica os seguintes 
problemas: (1) pontos claros e isolados que não são de 
interesse; (2) falta de aguçamento; (3) contraste in- 
suficiente em algumas imagens; e (4) deslocamentos 
da intensidade média, quando esse valor deveria ser V 
para realizar corretamente certas medidas de intensi- 
dade. O técnico quer corrigir esses problemas e depois 
exibir em branco todas as intensidades em uma banda 
entre J, e J, enquanto mantém normal a tonalidade das 
outras intensidades. Proponha uma sequência de pas- 
sos de processamento que ele possa seguir para atingir 
a meta desejada. Você pode utilizar técnicas tanto do 
Capítulo 3 quanto do Capítulo 4. 


Restauração e reconstrução 
de Imagens 


É uma total incógnita para nós o que os objetos podem ser por si só e distantes da receptividade dos nossos 
sentidos. Não sabemos de nada além da nossa forma de percebê-los. 


Immanuel Kant 


Capítulo 


Apresentação 


Como no realce de imagens, o principal objetivo das técnicas de restauração é melhorar uma imagem em 
algum sentido predefinido. Apesar de haver áreas de sobreposição, o realce de imagens é principalmente um 
processo subjetivo, enquanto a restauração de imagens é, em grande parte, um processo objetivo. A restau- 
ração procura recuperar uma imagem corrompida com base em um conhecimento a priori do fenômeno de 
degradação. Dessa forma, as técnicas de restauração se orientam na direção da definição da degradação e da 
aplicação do processo inverso para recuperar a imagem original. 


Essa abordagem normalmente envolve o desenvolvimento de critérios para definir o que seria uma imagem 
boa para estabelecer uma estimativa do resultado desejado. Por outro lado, as técnicas de realce basicamente 
consistem na elaboração de procedimentos heurísticos elaborados para manipular uma imagem benefician- 
do-se dos aspectos psicofísicos do sistema visual humano. Por exemplo, o alargamento do contraste é con- 
siderado uma técnica de realce por se basear principalmente nos aspectos agradáveis que pode apresentar 
ao observador, ao passo que a remoção do borramento de uma imagem ao aplicar uma função de redução de 
borramento (deblurring) é considerada uma técnica de restauração. 


O material desenvolvido neste capítulo é estritamente introdutório. Analisamos o problema da restauração 
somente em relação a uma imagem digital degradada; dessa forma, abordaremos apenas superficialmente 
temas referentes à degradação de sensores, digitalizadores e monitores. Esses tópicos, apesar de serem im- 
portantes nas aplicações de restauração de imagens em geral, estão fora do escopo da presente análise. 


Como vimos nos capítulos 3 e 4, algumas técnicas de restauração são mais bem formuladas no domínio 
espacial, ao passo que outras são mais adequadas ao domínio da frequência. Por exemplo, o processamento 
espacial é aplicável quando a única degradação é o ruído aditivo. Por outro lado, degradações como borra- 
mento de imagens são difíceis de solucionar no domínio espacial utilizando pequenas máscaras de filtragem. 
Nesse caso, os filtros no domínio da frequência baseados em vários critérios de otimização são as abordagens 
preferenciais. Esses filtros também levam em consideração a presença de ruído. Como visto no Capítulo 4, 
um filtro de restauração que soluciona uma determinada aplicação no domínio da frequência, muitas vezes, 
é utilizado como a base para desenvolver um filtro digital que será mais adequado para a operação de rotina 
utilizando uma implementação de hardware/firmware. 


A Seção 5.1 apresenta um modelo linear do processo de degradação/restauração de imagens. A Seção 5.2 
trata de vários modelos de ruído encontrados na prática. Na Seção 5.3, desenvolvemos várias técnicas de 
filtragem espacial para reduzir o conteúdo de ruído de uma imagem, um processo muitas vezes chamado 
de denoising de imagens. A Seção 5.4 é dedicada a métodos de redução de ruído utilizando técnicas do domínio 
da frequência. A Seção 5.5 apresenta modelos de degradação de imagens que são lineares e invariantes no 
espaço, e a Seção 5.6 apresenta métodos de estimativa de funções de degradação. As seções 5.7 a 5.10 in- 
cluem o desenvolvimento de metodologias fundamentais de restauração de imagens. Concluíremos o capítulo 
(Seção 5.11) com uma introdução à reconstrução de imagens a partir de projeções. A principal aplicação desse 
conceito é a tomografia computadorizada (CT), uma das mais importantes aplicações comerciais do proces- 
samento de imagens, especialmente na área da saúde. 


5.1 Modelo de processo de 
degradação/restauração de 
imagens 

Como mostra a Figura 5.1, o processo de degrada- 
ção é formulado neste capítulo como uma função de de- 
gradação f(x, y) que, com um termo de ruído aditivo, atua 
sobre uma imagem de entrada para produzir uma ima- 
gem degradada g(x, y). Dado g(x, y), algum conhecimento 
sobre a função de degradação H e algum conhecimen- 
to sobre o termo de ruído aditivo n(x, y), o objetivo da 
restauração é obter uma estimativa fix, y) da imagem 
original. Queremos que a estimativa esteja o mais próxi- 
mo possível da imagem de entrada original, e, em geral, 

quanto mais sabemos sobre H e ņ, mais próximo f (x, y) 

estará de f(x, y). A abordagem de restauração utilizada 

na maior parte deste capítulo se baseia em vários tipos de 
filtros de restauração de imagens. 


Demonstraremos, na Seção 5.5, que, se H for um 
processo linear e invariante no espaço, a imagem degra- 
dada será determinada no domínio espacial por 


g(x, y) = h(x, y) * fix y) +n y) (5.1-1) 


na qual h(x, y) é a representação espacial da função de 
degradação e, como no Capítulo 4, o símbolo * indi- 
ca convolução. Sabemos, com base na análise da Seção 
4.6.6, que a convolução no domínio espacial é análoga à 
multiplicação no domínio da frequência, então podemos 
expressar o modelo na Equação 5.1-1 em uma represen- 
tação equivalente no domínio da frequência: 


G(u, v) = H(u, v)F(u, v) + N(u, v) (5.1-2) 


na qual os termos em letras maiúsculas representam as 
transformadas de Fourier dos termos correspondentes na 
Equação 5.1-1. Essas duas equações constituem as bases 
para a maior parte do conteúdo relativo à restauração de- 
senvolvido neste capítulo. 

Nas três seções seguintes, vamos considerar que H 
seja o operador identidade e que lidamos apenas com de- 
gradações em razão do ruído. A partir da Seção 5.6, anali- 


Função de 
degradação 
H 


fay) => 


DEGRADACAO 


Figura 5.1 
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saremos uma série de importantes funções de degradação 
de imagens e analisaremos vários métodos de restauração de 
imagens tanto na presença de H quanto na de 7. 


5.2 Modelos de ruido 


As principais fontes de ruido em imagens digitais sur- 
gem durante a aquisição e/ou transmissão das imagens. O 
desempenho dos sensores de aquisição de imagens é afe- 
tado por uma série de fatores, como condições ambientais 
durante a aquisição da imagem e a qualidade dos elemen- 
tos sensores em si. Por exemplo, na aquisição de imagens 
com uma câmera CCD, a iluminação e a temperatura do 
sensor são fatores importantes que afetam a quantidade 
de ruído da imagem resultante. As imagens são corrompi- 
das durante a transmissão, principalmente em virtude de 
interferências no canal utilizado para a transmissão. Por 
exemplo, uma imagem transmitida utilizando uma rede 
sem fio (wireless) pode ser corrompida como resultado de 
relâmpagos ou outros distúrbios atmosféricos. 


5.2.1 Propriedades espaciais e de frequência do 
ruído 


Os parâmetros relevantes na nossa discussão são os 
que definem as características espaciais do ruído e se o 
ruído se correlaciona com a imagem. As propriedades de 
frequência se referem ao conteúdo de frequência do ruí- 
do no domínio de Fourier (isto é, em oposição à frequên- 
cias do espectro eletromagnético). Por exemplo, quando 
o espectro de Fourier do ruído é constante, o ruído nor- 
malmente é chamado de ruído branco. Essa terminologia 
provém das propriedades físicas da luz branca, que con- 
tém aproximadamente todas as frequências no espectro 
visível nas mesmas proporções. Com base na discussão 
do Capítulo 4, não é difícil demonstrar que o espectro 
de Fourier de uma função cujas frequências tenham as 
mesmas proporções é uma constante. 

Com a exceção do ruído periódico no domínio do 
espaço (Seção 5.2.3), presumimos, neste capítulo, que o 
ruído é independente das coordenadas espaciais e 


ga, y) i F 
Filtro(s) de Fie 
restauração Sæ») 
Ruído 
n(x, y) 


RESTAURAÇÃO 


Modelo do processo de degradação/restauração de imagens. 


206 Processamento digital de imagens 


que ele não se correlaciona com a imagem em si (isto é, 
não há correlação entre os valores de pixel e os valores 
dos componentes do ruído). Apesar de esses pressupos- 
tos serem pelo menos parcialmente inválidos em algumas 
aplicações (a aquisição de imagens com limitação quân- 
tica, como nos raios X e na medicina nuclear, é um bom 
exemplo disso), a complexidade de lidar com ruído cor- 
relacionado e espacialmente dependente não se inclui no 
escopo da nossa discussão. 


5.2.2 Algumas importantes funções densidade de 
probabilidade de ruído 


Com base nas premissas da seção anterior, o descritor 
de ruído espacial no qual nos concentraremos é o compor- 
tamento estatístico dos valores de intensidade no compo- 
nente de ruído do modelo da Figura 5.1. Eles podem ser 
considerados variáveis aleatórias, caracterizados por uma 
função densidade de probabilidade (PDF, de probability den- 
sity function). Apresentaremos a seguir as PDFs mais comuns 
encontradas em aplicações de processamento de imagens.” 


Ruído gaussiano 


Em função da possibilidade de manipulação mate- 
mática tanto no domínio do espaço quanto no da frequên- 


de normais) são bastante utilizados na prática. Na verdade, 
essa capacidade de manipulação é tão conveniente que 
muitas vezes resulta em modelos gaussianos que são uti- 
lizados em situações nas quais eles são, na melhor das 
hipóteses, marginalmente aplicáveis. 


A PDF de uma variável aleatória gaussiana, z, é 
dada por 


(5.2-1) 
210 

na qual z representa intensidade, Z é o valor médio” de z 
eo é seu desvio padrão. O desvio padrão elevado ao qua- 
drado, o?, é chamado de variância de z. A Figura 5.2(a) 
mostra um gráfico dessa função. Quando z é descrito pela 
Equação 5.2-1, aproximadamente 70% de seus valores es- 
tarão no intervalo [(Z — 0), (Z +0)]. Cerca de 95% estarão 
no intervalo [(Z — 20), (Z + 20)]. 


Ruído de Rayleigh 
A PDF do ruído de Rayleigh é dada por 
2 —(z—a)*/b 
—(zZ—a)e ara z>a 
ptey= 15879 dE] 
0 para z<a 


A média e a variância dessa densidade são dadas por 


cia, os modelos de ruído gaussiano (também chamados Z=a+vmb/4 (5.2-3) 
a pR) b p(z) C p2) 
1 fa 
SS 0,607 /— == Ls 
V 210 Vb e 
Rayleigh Gama 
0,607 | 
V 270 a(b — 1)! —(b-1) 
(b— 1)! 
z a i z (b — 1)/a z 
“2 
d PQ) e D(z) fp) 
i- oe Petes ee ae 
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P Uniforme Impulsivo 
Pa RR 
Z a b Z a b z 


Figura 5.2 Algumas importantes funções densidade de probabilidade. 


* Consulte o site do livro para uma breve revisão da teoria da probabilidade. 


“ Nesta seção, utilizamos Z no lugar de m para expressar a média, visando evitar confusão quando utilizamos, mais adiante, m e n para ex- 


pressar o tamanho da vizinhança. 


Pa a cid) (5.2-4) 
4 

A Figura 5.2(b) mostra um gráfico da densidade de 

Rayleigh. Observe o deslocamento a partir da origem e o 

fato de que o formato básico dessa densidade é inclinado 

para a direita. A densidade de Rayleigh pode ser bastante 


útil para a aproximação de histogramas inclinados. 


Ruído de Erlang (gama) 
A PDF do ruído de Erlang é dada por 


dz e” para z>0 
p(z)=4(b—1)! (5.2-5) 
0 para z<0 


na qual os parâmetros são tais que a > 0, b é um inteiro 
positivo e “!” indica fatorial. A média e a variância dessa 
densidade são dadas por 


(5.2-6) 


(5.2-7) 


A Figura 5.2(c) mostra um gráfico dessa densida- 
de. Apesar de a Equação 5.2-5 muitas vezes ser chamada 
de densidade gama, estritamente falando isso só é correto 
quando o denominador for a função gama, F (b). Quando 
o denominador for como mostrado, é mais apropriado se 
referir à densidade como densidade de Erlang. 


Ruído exponencial 
A PDF do ruído exponencial é dada por 
ae para z>0 


0 para z<0 pee) 


sendo a > 0. A média e a variância dessa função densi- 
dade sao 


(5.2-9) 


(5.2-10) 


Observe que essa PDF é um caso especial da PDF 
de Erlang, com b =1. A Figura 5.2(d) mostra um gráfico 
dessa funcao densidade. 
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Ruído uniforme 
A PDF do ruído uniforme é dada por 


1 
p(z)=i;b-a 
0 


sea<z<b 
(5.2-11) 


se nao 


A média dessa função densidade é dada por 


= b 
Z= < (5.2-12) 
e sua variância, por 
b— 2 
ga! — (5.2-13) 


A Figura 5.2(e) mostra um gráfico da densidade 
uniforme. 


Ruído impulsivo (sal e pimenta) 
A PDF do ruído de impulsivo (bipolar) é dada por 


P, paraz =a 
PZ) =4F, para z = b (5.2-14) 
0 se nao 


Se b > a, a intensidade b aparecerá como um ponto 
claro na imagem. Por outro lado, o nível a aparecerá como 
um ponto escuro. Se P ou P, for zero, o ruído impulsi- 
vo é chamado de unipolar. Se nenhuma probabilidade for 
zero, e especialmente se elas foram aproximadamente 
iguais, os valores do ruído impulsivo se assemelharão a 
grãos de sal e pimenta aleatoriamente distribuídos pela 
imagem. Por essa razão, o ruído impulsivo bipolar tam- 
bém é chamado de ruído sale pimenta. Ruído data-drop-out 
e ruído spike também são termos utilizados para se referir 
a esse tipo de ruído. Utilizaremos os termos ruído impulsi- 
vo ou sal e pimenta de forma intercambiável. 


Os impulsos de ruído podem ser negativos ou po- 
sitivos. Geralmente, o processo de digitalização inclui 
um ajuste de intensidades na imagem. Como a corrup- 
ção gerada pelo ruído impulsivo normalmente é grande 
em comparação com a intensidade do sinal da imagem, 
o ruído impulsivo normalmente é digitalizado como va- 
lores extremos de intensidade (preto ou branco puros) 
em uma imagem. Dessa forma, costuma-se presumir que 
a e b são valores “saturados”, no sentido de serem iguais 
aos valores mínimo e máximo permitidos na imagem 
digitalizada. Como resultado, impulsos negativos apare- 
cem como pontos pretos (pimenta) em uma imagem. Pela 
mesma razão, impulsos positivos aparecem como pontos 
brancos (sal). Para uma imagem de 8 bits, isso normal- 
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mente significa que a = O (preto) e b = 225 (branco). A 
Figura 5.2(f) mostra a PDF do ruído impulsivo. 


Como um grupo, as PDFs apresentadas anterior- 
mente proporcionam ferramentas úteis para formular 
uma ampla variedade de situações de corrupção por ruí- 
do encontradas na prática. Por exemplo, o ruído gaus- 
siano surge em uma imagem em decorrência de fatores 
como, por exemplo, o ruído de circuitos eletrônicos e o 
ruído dos sensores de imagem em virtude de ilumina- 
ção insuficiente e/ou alta temperatura. A densidade de 
Rayleigh é útil na caracterização dos fenômenos de ruído 
na aquisição de imagens de profundidade (range imaging). 
As densidades exponencial e gama encontram aplicação 
na aquisição de imagens por laser. O ruído impulsivo é 
encontrado em situações nas quais transientes rápidos, 
como problemas de chaveamento, ocorrem durante a 
aquisição da imagem, como mencionamos no parágra- 
fo anterior. A densidade uniforme é talvez a que menos 
descreve as situações práticas. No entanto, a densidade 
uniforme é bastante útil como base para vários geradores 
de números aleatórios utilizados em simulações [Peebles 
(1993) e Gonzalez, Woods e Eddins (2004)]. 


= 
Exemplo 5.1 Imagens com ruído e seus histogramas. 


A Figura 5.3 mostra um padrão de teste bastante apro- 
priado para ilustrar os modelos de ruído que acabamos de 
discutir. Trata-se de um padrão apropriado para utilização 
por ser composto de áreas simples e constantes que abran- 
gem toda a escala de cinza, do preto ao quase branco em 
apenas três incrementos. Isso facilita a análise visual das ca- 
racterísticas dos vários componentes de ruído adicionados à 
imagem. 


Figura 5.3 Padrão de teste utilizado para ilustrar as características 
das PDFs de ruído mostradas na Figura 5.2. 


A Figura 5.4 mostra o padrão de teste após o acrésci- 
mo dos seis tipos de ruído discutidos até agora nesta seção. 
Mostrado sob cada imagem está o histograma calculado di- 
retamente a partir dessa imagem. Os parâmetros do ruído 
foram escolhidos em cada caso, de forma que o histograma 
correspondente aos três níveis de intensidade no padrão de 
teste começaria a se mesclar. Isso fez com que o ruído fosse 
bastante visível, sem obscurecer a estrutura básica da ima- 
gem original. 

Observamos uma estreita correspondência na compara- 
ção dos histogramas da Figura 5.4 com as PDFs da Figura 5.2. 
O histograma para o exemplo de sal e pimenta tem um pico 
extra na extremidade branca da escala de intensidade por- 
que os componentes de ruído são preto e branco puros, e 
o componente mais claro do padrão de teste (o círculo) é 
cinza-claro. Com a exceção de uma intensidade geral ligei- 
ramente diferente, é difícil diferenciar visualmente entre as 
primeiras cinco imagens da Figura 5.4, apesar de seus his- 
togramas serem significativamente diferentes. A aparência 
sal e pimenta da imagem corrompida pelo ruído impulsivo 
é a única que é visualmente indicativa do tipo de ruído que 


causa a degradação. 
E 


5.2.3 Ruído periódico 


O ruído periódico em uma imagem normalmente 
resulta de interferência elétrica ou eletromecânica duran- 
te a aquisição da imagem. Esse é o único tipo de ruído es- 
pacialmente dependente que será considerado neste capí- 
tulo. Como veremos na Seção 5.4, o ruído periódico pode 
ser reduzido significativamente por meio da filtragem no 
domínio da frequência. Vejamos, por exemplo, imagem 
da Figura 5.5(a). Essa imagem é gravemente corrompi- 
da pelo ruído senoidal (espacial) de várias frequências. 
A transformada de Fourier de uma senoide pura é um par 
de impulsos” conjugados, localizados nas frequências con- 
jugadas da onda senoidal (Tabela 4.3). Dessa forma, se a 
amplitude de uma onda senoidal no domínio do espa- 
ço for suficientemente alta, poderíamos ver, no espectro 
da imagem, um par de impulsos para cada onda senoi- 
dal presente na imagem. Como mostra a Figura 5.5(b), 
de fato é o que acontece com os impulsos aparecendo 
aproximadamente como um círculo porque os valores de 
frequência neste caso particular estão dispostos dessa for- 
ma. Teremos muito mais a dizer na Seção 5.4 sobre este e 
outros exemplos de ruído periódico. 


Tome cuidado para não confundir o termo impulso da frequência 
com a utilização do mesmo termo no contexto do ruído de impulso. 
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Figura 5.4 (a) a(f) Imagens e histogramas resultantes do acréscimo do ruído gaussiano, de Rayleigh e gama à imagem da Figura 5.3. 
(g) a (I) Imagens e histogramas resultantes do acréscimo do ruído exponencial, uniforme e sal e pimenta à imagem da Figura 5.3. 
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Figura 5.5 (a) Imagem corrompida pelo ruído senoidal. (b) Espectro 
(cada par de impulsos conjugados corresponde a uma onda senoidal). 
(Imagem original: cortesia da Nasa.) 


5.24 Estimativa de parâmetros de ruído 


Os parâmetros do ruído periódico normalmente são 
estimados por meio da inspeção do espectro de Fourier 
da imagem. Como observamos na seção anterior, o ruído 
periódico tende a produzir picos de frequência que mui- 
tas vezes podem ser detectados até por análise visual. 
Uma outra abordagem é tentar inferir a periodicidade dos 


componentes do ruído diretamente a partir da imagem, 
mas isso só é possível em casos mais simples. 


A análise automatizada é possível em situações nas 
quais os picos de ruído são excepcionalmente acentuados 
ou quando se tem conhecimento da localização dos com- 
ponentes de frequência da interferência. 


Os parâmetros das PDFs de ruído podem ser par- 
cialmente conhecidos a partir de especificações do sensor, 
mas costuma ser necessário estimá-los para um arranjo 
particular de aquisição de imagens. Se o sistema de aqui- 
sição de imagens estiver disponível, um modo simples de 
estudar as características do ruído do sistema é coletando 
um conjunto de imagens em ambientes “uniformes”. Por 
exemplo, no caso de um sensor ótico, isso é tão simples 
quanto adquirir a imagem de um painel cinza sólido uni- 
formemente iluminado. As imagens resultantes costu- 
mam ser bons indicativos do ruído do sistema. 


Quando somente imagens que já foram geradas por 
um sensor estiverem disponíveis, costuma ser possível es- 
timar os parâmetros da PDF a partir de pequenas áreas de 
intensidade razoavelmente constante do fundo da imagem. 
Por exemplo, as faixas verticais (de 150 x 20 pixels) mostra- 
das na Figura 5.6 foram recortadas das imagens gaussiana, 
de Rayleigh e uniforme da Figura 5.4. Os histogramas mos- 
trados foram calculados utilizando dados de imagens dessas 
pequenas faixas. Os histogramas da Figura 5.4 que corres- 
pondem aos histogramas da Figura 5.6 são os histogramas 
centrais do grupo de três nas figuras 5.4(d), (e) e (k). Vemos 
que os formatos desses histogramas correspondem de modo 
bastante aproximado aos formatos dos histogramas da Fi- 
gura 5.6. Suas alturas diferem em decorrência do ajuste de 
escala, mas os formatos são claramente similares. 


A utilização mais simples dos dados obtidos das fai- 
xas de imagem é para o cálculo da média e da variância 


Figura 5.6 Histogramas calculados utilizando pequenas faixas (mostradas à esquerda) da imagem com ruído (a) gaussiano, (b) de Rayleigh e 


(c) uniforme na Figura 5.4. 


dos níveis de intensidade. Consideremos uma faixa (su- 
bimagem) expressa por S, com p(z), i= 0, 1, 2,...,L-1, 
expressando as estimativas de probabilidade (valores 
normalizados de histograma) das intensidades dos pixels 
em S, onde L é o numero de intensidades possíveis em 
toda a imagem (por exemplo, 256 para uma imagem de 8 
bits). Como fizemos no Capitulo 3, estimamos a média e 
a variância dos pixels em S como se segue: 


z=% ziz) (5.2-15) 
e E 
=> (2,27 Pz) (5.2-16) 


O formato do histograma identifica a melhor corres- 
pondência com uma PDF. Se o formato for aproximada- 
mente gaussiano, só precisamos da média e da variância 
porque a PDF gaussiana é totalmente especificada por es- 
ses dois parâmetros. Para os outros formatos discutidos 
na Seção 5.2.2, utilizamos a média e a variância para 
calcular os parâmetros a e b. O ruído impulsivo é calcu- 
lado de modo diferente porque a estimativa necessária 
é da probabilidade real de ocorrência de pixels brancos e 
pretos. Obter essa estimativa requer que tanto os pixels pre- 
tos quanto os brancos sejam visíveis, de forma que uma 
área cinza médio relativamente constante é necessária na 
imagem para poder calcular um histograma. As alturas 
dos picos correspondentes aos pixels preto e branco são as 
estimativas de P, e P, na Equação 5.2-14. 


5.3 Restauração na presença somente 
de ruído — filtragem espacial 


Quando a única degradação presente em uma ima- 
gem for o ruído, as equações 5.1-1 e 5.1-2 se tornam 


G(x, y) = fl, y) + n(x, y) (5.3-1) 


G(u, v) = F(u, v) + N(u, v) (5.3-2) 


Os termos do ruído são desconhecidos, de forma 
que subtraí-los de g(x, y) ou G(u, v) não é uma opção 
realista. No caso do ruído periódico, costuma ser possi- 
vel estimar N(u, v) a partir do espectro de G(u, v), como 
observamos na Seção 5.2.3. Neste caso, N(u, v) pode ser 
subtraído de G(u, v) para obter uma estimativa da ima- 
gem original. Em geral, contudo, esse tipo de conheci- 
mento é a exceção, e não a regra. 

A filtragem espacial é o método preferido em situa- 
ções nas quais somente o ruído aleatório aditivo estiver 
presente. Discutimos a filtragem espacial em detalhes no 
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Capítulo 3. Com exceção da natureza do cálculo realizado 
por um filtro específico, o método para implementar to- 
dos os filtros que se seguem são exatamente como vimos 
nas seções 3.4 a 3.6. 


5.3.1 Filtros de média 


Nesta seção, analisaremos rapidamente os recursos 
de redução de ruídos dos filtros espaciais apresentados 
na Seção 3.5 e desenvolveremos vários outros filtros cujo 
desempenho é, em muitos casos, superior ao dos filtros 
discutidos naquela seção. 


Filtro de média aritmética 


Este é o mais simples dos filtros de média. Seja 5, o 
conjunto de coordenadas em uma janela de subimagem 
retangular (vizinhança) de tamanho m x n, centrada no 
ponto (x, y).* O filtro de média aritmética calcula o valor 
médio da imagem corrompida g(x, y) na área definida 
por S,. O valor da imagem restaurada f no ponto (x, y) 
é simplesmente a média aritmética calculada utilizando 
os pixels da região definida por S,. Em outras palavras, 


A 


fix, y)=— 5 gist) 


mn (s,t) ES, 


(5.3-3) 


Essa operação pode ser melee utilizando 
um filtro espacial de tamanho m x n no qual todos os 
coeficientes apresentam valor 1/mn. Um filtro de média 
atenua variações locais em uma imagem, e o ruído é re- 
duzido em consequência do borramento. 


Filtro de média geométrica 


Uma imagem restaurada utilizando um filtro de mé- 


dia geométrica é dada pela expressão 
1 


mn 


=| [I set 


(S,t)ES, y 


(5.3-4) 


Aqui, cada pixel restaurado é determinado pelo 
produto dos pixels na janela de subimagem, elevado à 
potência de 1/mn. Como mostrado no Exemplo 5.2, um 
filtro de média geométrica obtém uma suavização com- 
parável ao filtro de média aritmética, mas tende a perder 
menos detalhes da imagem no processo. 


Filtro de média harmônica 


A operação de filtragem de média harmônica é deter- 
minada pela expressão 


f(x y= 


mn 
1 


(s,t)ES, g(s, t) 


* Consideramos que m e n são números inteiros ímpares. 


(5.3-5) 
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O filtro de média harmônica funciona bem para o 
ruído de sal, mas falha para o ruído de pimenta. Ele tam- 
bém apresenta um bom desempenho com outros tipos de 
ruído, como o gaussiano. 


Filtro de média contra-harmônica 


O filtro de média contra-harmônica leva a uma ima- 
gem restaurada com base na expressão 


>. eo 


a (5.065, , 


PVN” O 


(s,t)ES, y 


(5.3-6) 


na qual Q é chamado de ordem do filtro. Esse filtro é apro- 
priado para reduzir ou praticamente eliminar os efeitos 
do ruído sal e pimenta. Para valores positivos de Q, o fil- 
tro elimina o ruído de pimenta. Para valores negativos de 
Q, ele elimina o ruído de sal. Ele não pode fazer as duas 
coisas simultaneamente. Observe que o filtro contra-har- 
mônico é reduzido ao filtro de média aritmética se Q = 0 
e ao filtro de média harmônica se Q=-1. 


Bar hstsiyty 


Figura 5.7 


= 
Exemplo 5.2 Ilustração de filtros de média. 


A Figura 5.7(a) mostra uma imagem radiográfica de 8 
bits de uma placa de circuito e a Figura 5.7(b) mostra a mes- 
ma imagem, porém corrompida pelo ruído aditivo gaussiano 
de média zero e variância 400. Para esse tipo de imagem, 
trata-se de um nível significativo de ruído. As figuras 5.7(c) 
e (d) mostram, respectivamente, o resultado da filtragem da 
imagem com ruído utilizando um filtro de média aritméti- 
ca de tamanho 3 x 3 e um filtro de média geométrica de 
mesmo tamanho. Apesar de os dois filtros apresentarem um 
desempenho razoável na atenuação do ruído, o filtro de mé- 
dia geométrica não borrou a imagem tanto quanto o filtro 
de média aritmética. Por exemplo, as trilhas do conector na 
parte superior da imagem são mais nítidas na Figura 5.7(d) 
do que em c. O mesmo se aplica a outras partes da imagem. 


A Figura 5.8(a) mostra a mesma imagem do circuito 
impresso, mas dessa vez corrompida pelo ruído de pimenta 
com probabilidade de 0,1. De forma similar, a Figura 5.8(b) 
mostra a imagem corrompida por ruído de sal com a mesma 
probabilidade. A Figura 5.8(c) mostra o resultado da filtra- 
gem da Figura 5.8(a) utilizando um filtro de média contra- 
-harmônica com Q = 1,5, e a Figura 5.8(d) mostra o resultado 


(a) Imagem radiográfica. (b) Inagem corrompida pelo ruído aditivo gaussiano. (c) Resultado da filtragem com um filtro de média 


aritmética de tamanho 3 x 3. (d) Resultado da filtragem com um filtro de média geométrica do mesmo tamanho. (Imagem original: cortesia do Dr. 


Joseph E. Pascente, Lixi, Inc.) 
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Figura 5.8 


(a) Inagem corrompida por ruído de pimenta com probabilidade de 0,1. (b) Imagem corrompida por ruído de sal com a mesma pro- 


babilidade. (c) Resultado da filtragem de (a) com um filtro contra-harmônico 3 x 3 de ordem 1,5. (d) Resultado da filtragem de (b) com Q = —1,5. 


da filtragem da Figura 5.8(b) com Q = -1,5. Os dois filtros 
apresentaram um bom desempenho na redução do efeito do 
ruído. O filtro de ordem positiva apresentou um desempe- 
nho melhor na limpeza do fundo da imagem, à custa de um 
ligeiro afinamento e borramento das áreas escuras. O oposto 
se aplica ao filtro de ordem negativa. 

Em geral os filtros de média aritmética e geométri- 
ca (particularmente o último) são adequados para o ruído 
aleatório, como o gaussiano ou o uniforme. O filtro contra- 
-harmônico é apropriado para o ruído impulsivo, mas tem a 
desvantagem de que é necessário saber se o ruído é escuro 
ou claro para selecionar o sinal adequado de Q. Os resulta- 
dos da escolha do sinal errado para Q podem ser desastrosos, 
como mostra a Figura 5.9. Alguns dos filtros discutidos nas 
seções a seguir eliminam esse problema. 

E 


5.3.2 Filtros de estatística de ordem 


Os filtros de estatística de ordem foram apresentados 
na Seção 3.5.2. Agora expandiremos a discussão nessa se- 
ção e apresentaremos alguns filtros adicionais de estatísti- 
ca de ordem. Como observamos na Seção 3.5.2, os filtros 
de estatística de ordem são filtros espaciais cuja resposta se 
baseia na ordenação (classificação) dos valores dos pixels 


contidos na área da imagem coberta pelo filtro. O resulta- 
do da classificação determina a resposta do filtro. 


Filtro de mediana 


O filtro de estatística de ordem mais conhecido é o 
filtro de mediana, que, como o nome sugere, substitui o 
valor de um pixel pela mediana dos níveis de intensidade 
na vizinhança desse pixel: 


f(x,y) = mediana (g(s,t)) 


(s,t)ES.y 


(5.3-7) 


O valor do pixel em (x, y) é incluido no calculo da 
mediana. Os filtros de mediana sao bastante populares 
porque, para certos tipos de ruído aleatório, eles propor- 
cionam excelentes recursos de redução de ruído, com 
consideravelmente menos borramento do que os filtros 
lineares de suavização de tamanho similar. Os filtros de 
mediana são particularmente eficazes na presença do ruí- 
do tanto impulsivo bipolar quanto unipolar. Com efeito, 
como demonstra o Exemplo 5.3, o filtro de mediana gera 
excelentes resultados para imagens corrompidas por esse 
tipo de ruído. O cálculo da mediana e a implementação 
desse filtro foram discutidos na Seção 3.5.2. 
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Figura 5.9 Resultados da seleção do sinal errado na filtragem contra-harmônica. (a) Resultado da filtragem da Figura 5.8(a) com filtro contra- 
harmônico de tamanho 3 x 3 e Q=-1,5. (b) Resultado da filtragem da Figura 5.8(b) com Q= 1,5. 


Filtros de máximo e de mínimo 


Apesar de o filtro de mediana ser o filtro de estatís- 
tica de ordem mais utilizado no processamento de ima- 
gens, ele não é o único. A mediana representa o 50º per- 
centil de um conjunto ordenado de números, mas você 
deve se lembrar, com base nos fundamentos da estatísti- 
ca, que a classificação tem muitas outras possibilidades. 
Por exemplo, utilizar o 100º percentil resulta no chamado 
filtro de máximo, dado por 


A 


f(x, y)= max {9(s,t)} 
(SNES, 

Esse filtro é útil para localizar os pontos mais claros 
de uma imagem. Além disso, como o ruído de pimenta 
tem valores muito baixos, ele é reduzido por esse filtro 
como um resultado do processo de seleção do valor má- 
ximo na área da subimagem S, 


(5.3-8) 


O filtro do 0º percentil é o filtro de mínimo: 


A 


f(x,y)= min 


$t 

ae a )} 
Esse filtro é útil para encontrar os pontos mais escuros 

de uma imagem. Além disso, ele reduz o ruído de sal como 


um resultado da operação de selecionar o valor mínimo. 


(5.3-9) 


Filtro de ponto médio 


O filtro de ponto médio simplesmente calcula o 
ponto médio entre os valores máximo e mínimo na área 
englobada pelo filtro: 


fix. y)=—| max (g(s,8)) + min (9(5,8))| (5.3-10) 


2 |(s,t€S,., (DES, 


Observe que esse filtro combina a estatística de 
ordem e a média. Ele funciona melhor para um ruído 
aleatoriamente distribuído, como o ruído gaussiano ou o 
uniforme. 


Filtro de média alfa cortada 


Suponha que sejam excluídos os valores de inten- 
sidade d/2 mais baixos e d/2 mais altos de g(s, t) na vizi- 
nhança S,. Temos g,(s, t) representando os mn — d pixels 
restantes. Um filtro formado pela média desses mn — d 
pixels restantes é chamado de filtro de média alfa cortada: 


>, 945,1) 


(s,t)€S, y 


A 1 
Ms eod 


(5.3-11) 


no qual o valor de d pode variar de O a mn — 1. Quando 
d = 0, o filtro alfa cortada é reduzido ao filtro de média 
aritmética discutido na seção anterior. Se escolhermos 
d=mn-l,o filtro se torna um filtro de mediana. Para 
outros valores de d, o filtro alfa cortado é útil em situa- 
ções envolvendo múltiplos tipos de ruído, como uma 
combinação de ruído sal e pimenta e gaussiano. 


Exemplo 5.3 Ilustração de filtros de estatística de ordem. 


A Figura 5.10(a) mostra a imagem da placa de circui- 
to corrompida pelo ruído sal e pimenta com probabilidades 
P = P,= 0,1. A Figura 5.10(b) mostra o resultado da filtra- 
gem de mediana com um filtro de tamanho 3 x 3. A me- 
lhora em relação à Figura 5.10(a) é significativa, mas varios 
pontos de ruído ainda são visíveis. Uma segunda passagem 
(na imagem da Figura 5.10(b)) pelo filtro de mediana remo- 
veu a maioria desses pontos, deixando apenas alguns poucos 
pontos de ruído que mal são visíveis. Eles foram removi- 
dos por uma terceira passagem do filtro. Esses resultados são 
bons exemplos do poder da filtragem de mediana para lidar 
com ruído aditivo impulsivo. Tenha em mente que passa- 
gens repetidas de um filtro de mediana borrarão a imagem, 
de forma que é desejável manter o número de passagens no 
mínimo possível. 
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initie 


Figura 5.10 (a) Imagem corrompida pelo ruído sal e pimenta com probabilidades P = P, = 0,1. (b) Resultado de uma passagem de um filtro 
de mediana de tamanho 3 x 3. (c) Resultado do processamento de (b) com esse filtro. (d) Resultado do processamento de (c) com o mesmo filtro. 


A Figura 5.11 (a) mostra o resultado da aplicação do filtro 
de máximo à imagem com ruído de pimenta da Figura 5.8(a). O 
filtro apresentou um desempenho razoável removendo o ruído 
de pimenta, mas notamos que ele também removeu (ajustou 
em um nível de intensidade clara) alguns pixels escuros dos 
contornos dos objetos escuros. A Figura 5.11(b) mostra o re- 
sultado da aplicação do filtro de mínimo à imagem da Figura 


Figura 5.11 
com um filtro de mínimo de mesmo tamanho. 


5.8(b). Neste caso, o filtro de mínimo apresentou um desem- 
penho melhor do que o filtro de máximo na remoção do ruído, 
mas removeu alguns pontos brancos do contorno de objetos 
claros. Isso fez com que os objetos mais claros ficassem meno- 
res e alguns dos objetos escuros ficassem maiores (como as tri- 
lhas do conector no alto da imagem) porque os pontos brancos 
ao redor desses objetos foram ajustados em um nível escuro. 


o ivirisis 


(a) Resultado da filtragem da Figura 5.8(a) com um filtro de máximo de tamanho 3 x 3. (b) Resultado da filtragem da Figura 5.8(b) 
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O filtro de média alfa cortada é ilustrado em seguida. A 
Figura 5.12(a) mostra a imagem da placa de circuito corrom- 
pida dessa vez por ruído aditivo uniforme de variância 800 e 
média zero. Trata-se de um alto nível de corrupção de ruído 
piorado pelo acréscimo de ruído sal e pimenta com P =P, = 
0,1 como mostra a Figura 5.12(b). O alto nível de ruído nes- 
sa imagem requer a utilização de filtros maiores. As figuras 
5.12(c) a (f) mostram os resultados obtidos utilizando filtros 
de média aritmética, média geométrica, mediana e média 
alfa cortada (com d = 5) de tamanho 5 x 5. Como era de es- 
perar, os filtros de média aritmética e geométrica (especial- 


E vininisto 


CR 


Figura 5.12 


mente o último) não apresentaram um bom desempenho 
em razão da presença do ruído impulsivo. Os filtros de me- 
diana e alfa cortada apresentaram um desempenho muito 
melhor, com o filtro alfa cortada resultando em uma redu- 
ção de ruído ligeiramente superior. Observe, por exemplo, 
que a quarta trilha do conector da parte superior esquerda 
é um pouco mais suave no resultado alfa cortada. Isso não 
nos surpreende porque, para um valor alto de d, o filtro de 
média alfa cortada se aproxima do desempenho do filtro 
de mediana, mas ainda retém alguns recursos de suavização. 

E 


APELI EFD 


n DSi 


(a) Imagem corrompida por ruído uniforme aditivo. (b) Imagem adicionalmente corrompida pelo ruído sal e pimenta aditivo. Imagem 


(b) filtrada com um: (c) filtro de média aritmética; (d) filtro de média geométrica; (e) filtro de mediana; e (f) filtro de média alfa cortada com d'=5. 


Todos os filtros de tamanho 5 x 5. 


5.3.3 Filtros adaptativos 


Uma vez selecionados, os filtros discutidos até agora 
são aplicados a uma imagem sem levar em consideração 
como as características da imagem variam de um ponto 
a outro. Nesta seção, analisaremos dois filtros adaptativos 
cujo comportamento muda com base nas características 
estatísticas da imagem dentro da região de filtro definida 
pela janela retangular S, de tamanho m x n. Como a dis- 
cussão a seguir demonstra, os filtros adaptativos são capa- 
zes de um desempenho superior ao dos filtros discutidos 
até agora. O preço pago pelo maior poder de filtragem é 
uma maior complexidade do filtro. Tenha em mente que 
ainda estamos lidando com o caso no qual a imagem de- 
gradada é igual à imagem original mais o ruído. Ainda não 
estamos considerando outros tipos de degradação. 


Filtro adaptativo de redução de ruído local 


As medidas estatísticas mais simples de uma variável 
aleatória são sua média e sua variância. Trata-se de pará- 
metros razoáveis sobre os quais podemos basear um filtro 
adaptativo por serem valores estreitamente relacionados 
à aparência de uma imagem. A média nos proporciona 
uma medida de intensidade média na região ao longo da 
qual ela é calculada, e a variância nos proporciona uma 
medida de contraste nessa região. 


Nosso filtro deve operar em uma região local, S, 
A resposta do filtro em qualquer ponto (x, y) no qual a 
região é centralizada deve se basear em quatro valores: (a) 
g(x, y), o valor da imagem com ruído em (x, y); (b) o, 
a variância do ruído que corrompe f(x, y) para formar 
g(x, y); (c) m, a média local dos pixels em S,; e (d) Ea 
a variância local dos pixels em $, . Queremos que o com- 


portamento do filtro seja o seguinte: 


l. Se o; for zero, o filtro deve simplesmente retornar 
o valor de g(x, y). Esse é o caso trivial, de ruído zero, 
no qual g(x, y) é igual a f(x, y). 

2. Sea variância local for alta em relação à o; , 0 filtro 
deve retornar um valor próximo de g(x, y). Uma alta 
variancia local costuma ser associada as bordas, que 
devem ser preservadas. 


3. Se as duas variâncias forem iguais, queremos que o 
filtro retorne o valor da média aritmética dos pixels 
ems,, Essa condição ocorre quando a área local tem 
as mesmas propriedades que a imagem em geral e o 
ruído local é reduzido pelo simples cálculo da média. 
Uma expressão adaptativa a ser obtida com base 


nessas premissas pode ser expressa como 
2 


flxy)= ax, -lax y) m] (5.3-12) 
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O único valor que precisa ser conhecido ou estima- 
do é a variância do ruído geral, a7. Os outros parâmetros 
são calculados a partir dos pixels em S, para cada posição 
(x, y) na qual a janela do filtro é centralizada. Uma con- 
dição implícita na Equação 5.3-12 é que o, < 07. O ruído 
no nosso modelo é aditivo e independente da posição, de 
forma que essa é uma condição aceitável de se fazer, já 
que S, é um subconjunto de g(x, y). Contudo, raramente 
conhecemos o? com precisão. Assim, é possível que essa 
condição seja violada na prática. Por essa razão, um tes- 
te deve ser incorporado na implementação da Equação 
5.3-12, de forma que a razão seja definida em 1 se a con- 
dição o, > 07 ocorrer. Isso faz com que esse filtro seja não 
linear. No entanto, isso impede resultados sem sentido 
(isto é, níveis de intensidade negativos, dependendo do 
valor de m,) em virtude de um potencial desconhecimen- 
to da variância do ruído da imagem. Outra abordagem é 
permitir a ocorrência de valores negativos e reajustar os 
valores de intensidade no final. O resultado, neste caso, 
poderia ser uma perda na faixa dinâmica da imagem. 


Exemplo 5.4 Ilustração de filtragem adaptativa de 


redução de ruído local. 


A Figura 5.13(a) mostra a imagem da placa de circuito, 
corrompida dessa vez pelo ruído gaussiano aditivo de mé- 
dia zero e variância 1.000. Trata-se de um nível significativo 
de corrupção por ruído, mas representa um teste ideal para 
comparar o desempenho relativo do filtro. A Figura 5.13(b) 
mostra o resultado do processamento da imagem com ruído 
utilizando um filtro de média aritmética de tamanho 7 x 7. 
O ruído foi suavizado, mas à custa de um significativo bor- 
ramento da imagem. Comentários similares são aplicáveis 
à Figura 5.13(c), que mostra o resultado do processamento 
da imagem com ruído utilizando um filtro de média geomé- 
trica, também de tamanho 7 x 7. As diferenças entre essas 
duas imagens filtradas são análogas às que discutimos no 
Exemplo 5.2; a única diferença é o grau de borramento. 

A Figura 5.13(d) mostra o resultado da utilização do 
filtro adaptativo da Equação 5.3-12, com o, = 1.000. As me- 
lhorias desse resultado em comparação com os dois filtros 
anteriores são significativas. Em termos de redução de ruído 
geral, o filtro adaptativo atingiu resultados similares aos dos fil- 
tros de média aritmética e geométrica. Contudo, a imagem fil 
trada com o filtro adaptativo é muito mais nítida. Por exem- 
plo, as trilhas do conector na parte superior da imagem são 
significativamente mais nítidas na Figura 5.13(d). Outras ca- 
racterísticas, como os buracos e as oito pernas do componente 
escuro no lado inferior esquerdo da imagem, são muito mais 
nítidas na Figura 5.13(d). Esses resultados são típicos do que 
pode ser obtido com um filtro adaptativo. Como menciona- 
mos anteriormente, o preço pago pelo melhor desempenho 
é uma complexidade adicional do filtro. 
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(a) Imagem corrompida pelo ruído gaussiano aditivo de média zero e variância 1.000. (b) Resultado da filtragem de média aritmética. 


(c) Resultado da filtragem de média geométrica. (d) Resultado da filtragem adaptativa de redução de ruído. Todos os filtros são de tamanho 7 x 7. 


Os resultados mostrados utilizaram um valor para o, 
que correspondia exatamente à variância do ruído. Se esse 
valor não for conhecido, e uma estimativa muito baixa for 
utilizada, o algoritmo retornará uma imagem que se asse- 
melhará bastante à imagem original, porque as correções 
serão menores do que deveriam ser. Estimativas muito altas 
farão com que a razão da variância seja cortada em 1,0, e o 
algoritmo subtrairá a média da imagem com mais frequên- 
cia do que normalmente faria. Se valores negativos forem 
permitidos e a intensidade da imagem for reajustada no fi- 
nal, o resultado será uma perda de faixa dinâmica, como 


mencionamos anteriormente. 
= 


Filtro adaptativo de mediana 


O filtro de mediana discutido na Seção 5.3.2 apre- 
senta um bom resultado se a densidade espacial do ruí- 
do impulsivo não for alta (como uma regra geral, P e 
P, menores que 0,2). Mostramos, nesta seção, que a fil- 
tragem adaptativa mediana é capaz de lidar com o ruído 
impulsivo com probabilidades maiores que essas. Um be- 
nefício adicional do filtro adaptativo de mediana é que 
ele busca preservar os detalhes ao mesmo tempo em que 


suaviza o ruído não impulsivo, algo que o filtro de media- 
na “tradicional” não faz. Como em todos os filtros discuti- 
dos nas seções anteriores, o filtro adaptativo de mediana 
também funciona em uma área de janela retangular Sy 
Diferentemente desses filtros, contudo, o filtro adaptativo 
de mediana altera (aumenta) o tamanho de S, durante a 
operação de filtragem, dependendo de certas condições 
apresentadas nesta seção. Tenha em mente que a saída 
do filtro é um valor único utilizado para substituir o valor do 
pixel em (x, y), o ponto no qual a janela S,, está centrali- 
zada em um determinado momento. 

Considere a seguinte notação: 

Z m = Valor mínimo de intensidade em S., 

Z „áx = Valor maximo de intensidade em Sy 
Z „a = Mediana dos valores de intensidade em Sy 

= valor da intensidade nas coordenadas (x, y) 


ma 


S máx = tamanho máximo permitido de S,, 


O algoritmo da filtragem mediana adaptativa fun- 
ciona em duas etapas, chamadas de estágio A e estágio B, 
como segue: 


Estágio A: Al =Z ed Zum 

A2 = Zed T máx 

Se Al > 0 E A2< 0, vá para o estágio B 
Senão, aumente o tamanho da janela 


Se o tamanho da janela < S repita o 
estágio A 


Senão, a saída é Z 4 
Estágio B: Bl=Z -Zan 
B2 = Zy Ad 
Se Bl > 0 E B2 <0, a saída é z, 
Senão, a saída é Z 4 


A chave para compreender o funcionamento desse 
algoritmo é ter em mente que ele tem três principais fina- 
lidades: remover o ruído sal e pimenta (impulsivo), pro- 
porcionar suavização para outros ruídos que possam não 
ser impulsivos e reduzir a distorção, como o afinamento 
ou o espessamento excessivo das fronteiras dos objetos. 
Os valores Zm € Z,,;, São estatisticamente considerados 
pelo algoritmo como componentes de ruído “similares a 
impulsos”, mesmo se eles não forem o mais baixo e o 
mais alto valor de pixel possível na imagem. 


Com essas observações em mente, vemos que o 
propósito do estágio A é verificar se a saída do filtro de 
mediana, z ., é um impulso (preto ou branco) ou não. 


med” 
Se a condição z, <z_.<z_. for verdadeira, então z 


min med max med 
nao pode ser um impulso pela razao mencionada no pa- 
rágrafo anterior. Neste caso, vamos para o estágio B e 
verificamos se o ponto no centro da janela, z, é um im- 
pulso (lembre-se que se trata do ponto sendo processa- 
do). Se a condição B1 > 0 E B2 < 0 for verdadeira, então 
Zin < Zy < Zmáx € Zy NãO pode ser um impulso pela mesma 
razão pela qual z |, não era um impulso. Nesse caso, o al- 
goritmo resulta no valor inalterado do pixel, z,,. Por não 
alterar esses pontos de “nível intermediário”, a distorção 
é reduzida na imagem. Se a condição B1 > 0 E B2 < 0 for 
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falsa, então Ef OU Zy = E EM qualquer um dos ca- 
sos, 0 valor do pixel é um valor extremo e o algoritmo re- 
sulta no valor de mediana z |, que sabemos, com base no 
estágio A, não se tratar de um ruído impulsivo. O último 
passo é o que o filtro de mediana padrão faz. O problema 
é que o filtro de mediana padrão substitui todos os pontos 
da imagem pela mediana da vizinhança correspondente. 
Isso provoca uma perda desnecessária de detalhes. 


Prosseguindo com a explicação, suponha que o es- 
tágio A de fato encontre um impulso (isto é, não passe 
no teste que faria com que ele prosseguisse ao estágio 
B). O algoritmo então aumenta o tamanho da janela e 
repete o estágio A. Esse procedimento prossegue até que o 
algoritmo encontre um valor de mediana que não seja um 
impulso (e passe para o estágio B) ou o tamanho máximo 
da janela seja atingido. Se o tamanho máximo da janela 
for atingido, o algoritmo retorna ao valor de Z „į Observe 
que não há garantia de que esse valor não seja um impul- 
so. Quanto mais baixas forem as probabilidades P e/ou P, 
de ruído, ou quanto maior se permite que S, seja, me- 
nos provável será a ocorrência de uma condição de saída 
prematura. Isso é plausível. À medida que a densidade dos 
impulsos aumenta, nós logicamente precisaríamos de uma 
janela maior para “limpar” os picos de ruído. 


Cada vez que o algoritmo gera um valor, a janela $, 
é movida para a próxima posição na imagem. O algoritmo 
então é reiniciado e aplicado aos pixels da próxima posição. 
Como indicado no Exercício 3.18, o valor da mediana pode 
ser atualizado iterativamente utilizando apenas os novos 
pixels, reduzindo, dessa forma, a carga computacional. 


= 
Exemplo 5.5 Ilustração da filtragem adaptativa de 
mediana. 

A Figura 5.14(a) mostra a imagem da placa de circui- 
to corrompida pelo ruído sal e pimenta com probabilidades 


P = P, = 0,25, que é 2,5 vezes o nível de ruído utilizado na 


Figura 5.14 (a) Imagem corrompida por ruído sal e pimenta com probabilidades P, = P, = 0,25. (b) Resultado da filtragem com um filtro de me- 


diana 7 x 7. (c) Resultado da filtragem adaptativa de mediana com S, =7. 
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Figura 5.10(a). Aqui, o nível de ruído é alto o suficiente para 
obscurecer a maior parte dos detalhes da imagem. Como uma 
base para comparação, a imagem foi primeiro filtrada utili- 
zando o menor filtro de mediana necessário para remover a 
maior parte dos traços visíveis do ruído impulsivo. Para isso, 
precisamos de um filtro de mediana 7 x 7 e o resultado é mos- 
trado na Figura 5.14(b). Apesar de o ruído ter sido removido 
com eficácia, o filtro provocou perda significativa de detalhes 
na imagem. Por exemplo, as trilhas do conector na parte su- 
perior da imagem aparecem distorcidas ou incompletas. Ou- 
tros detalhes da imagem são distorcidos de forma similar. 


A Figura 5.14(c) mostra o resultado da utilização do 
filtro adaptativo de mediana com S «= 7. O desempenho da 
remoção de ruído foi similar ao do filtro de mediana. Con- 
tudo, o filtro adaptativo apresentou um desempenho me- 
lhor na preservação da nitidez e dos detalhes. As trilhas do 
conector aparecem menos distorcidas e alguns outros traços 
que foram obscurecidos ou distorcidos pelo filtro de media- 
na, a ponto de serem irreconhecíveis, aparecem mais níti- 
dos e mais bem definidos na Figura. 5.14(c). Dois exemplos 
notáveis são os pequenos buracos brancos de passagem e 
o componente escuro de oito pernas no quadrante inferior 
esquerdo da imagem. 

Considerando o alto nível de ruído da Figura 5.14(a), 
o algoritmo adaptativo apresentou um desempenho bastan- 
te bom. A escolha do tamanho máximo permitido para a 
janela depende da aplicação, mas um valor inicial razoável 
pode ser estimado antes por meio da experimentação com 
vários tamanhos do filtro de mediana padrão. Isso estabele- 
cerá uma referência visual para as expectativas do desempe- 


nho do algoritmo adaptativo. 
E 


5.4 Redução de ruído periódico pela 
filtragem no domínio da frequência 


O ruído periódico pode ser analisado e filtrado com 
bastante eficácia utilizando técnicas do domínio da frequên- 
cia. A ideia básica é que o ruído periódico apareça como 
picos concentrados de energia na transformada de Fourier, 
em posições correspondentes às frequências da interferên- 
cia periódica. A técnica consiste em utilizar um filtro sele- 
tivo (veja a Seção 4.10) para isolar o ruído. Os três tipos 
de filtros seletivos (rejeita-banda, passa-banda e notch, apre- 


<> 


sentados na Seção 4.10) serão utilizados nas seções 5.4.1 
a 5.4.3 para a redução de ruído periódico básico. Também 
apresentaremos um método ótimo para a filtragem notch na 
Seção 5.4.4. 


5.4.1 Filtros rejeita-banda 


As funções de transferência dos filtros rejeita-banda 
ideal, Butterworth e gaussiano, apresentados na Seção 
4.10.1, são resumidas na Tabela 4.6. A Figura 5.15 mos- 
tra gráficos em perspectiva desses filtros, e o exemplo a 
seguir ilustra a utilização do filtro rejeita-banda para re- 
duzir os efeitos do ruído periódico. 


= 
Exemplo 5.6 Utilização da filtragem rejeita-banda para 
a remoção de ruído periódico. 


Uma das principais aplicações da filtragem rejeita-banda 
é a remoção de ruído em aplicações nas quais a posição ge- 
ral do(s) componente(s) de ruído no domínio da frequência 
é aproximadamente conhecida. Um bom exemplo é uma 
imagem corrompida por ruído periódico aditivo que pode ser 
aproximadamente estimado como funções senoidais bidimen- 
sionais. Não é difícil demonstrar que a transformada de Fourier 
de um seno consiste em dois impulsos que são imagens espe- 
lhadas uma da outra a partir da origem da transformada. Suas 
localizações são dadas na Tabela 4.3. Os impulsos são ao mes- 
mo tempo imaginários (a parte real da transformada de Fou- 
rier de um seno é zero) e conjugados complexos um do outro. 
Teremos mais a dizer a respeito nas seções 5.4.3 e 5.4.4. Nosso 
objetivo por enquanto é ilustrar a filtragem rejeita-banda. 


A Figura 5.16(a), que é a mesma que a Figura 5.5(a), 
mostra uma imagem substancialmente corrompida por ruído 
senoidal de várias frequências. Os componentes de ruído são 
facilmente vistos como pares simétricos de pontos claros no 
espectro de Fourier mostrado na Figura 5.16(b). Neste exem- 
plo, os componentes se localizam em um círculo aproximado 
a partir da origem da transformada, de forma que um filtro 
rejeita-banda circularmente simétrico representa uma boa 
escolha. A Figura 5.16(c) mostra um filtro rejeita-banda But- 
terworth de ordem 4, com raio e largura apropriados para 
englobar completamente os impulsos de ruído. Como em ge- 
ral é desejável remover o mínimo possível da transformada, 
filtros abruptos e estreitos são comuns na filtragem rejeita- 
banda. O resultado da filtragem da Figura 5.16(a) com esse 


Figura 5.15 Da esquerda para a direita, gráficos em perspectiva de filtros rejeita-banda ideal, Butterworth (de ordem 1) e gaussiano. 


Figura 5.16 
sultado da filtragem. (Imagem original: cortesia da Nasa.) 


filtro é mostrado na Figura 5.16(d). A melhora é bastante 
evidente. Até pequenos detalhes e texturas foram restaura- 
dos com eficácia por esse método simples de filtragem. Tam- 
bém cabe ressaltar que não seria possível obter resultados 
equivalentes por um método de filtragem direta no domínio 
espacial utilizando pequenas máscaras de convolução. 

E 


5.4.2 Filtros passa-banda 


Um filtro passa-banda realiza a operação oposta de um 
filtro rejeita-banda. Mostramos, na Seção 4.10.1, como a 
função de transferência H (u, v) de um filtro passa-banda 
é obtida a partir de um filtro rejeita-banda correspondente 
com função de transferência H,,,(u, v) utilizando a equação 


H,,,(u, v) = 1- H,,(u, Y) (5.4-1) 


Deixamos como um exercicio (Exercicio 5.12) de- 
duzir as expressões para os filtros passa-banda correspon- 
dentes às equações rejeita-banda da Tabela 4.6. 


= 
Exemplo 5.7 Filtragem passa-banda para extrair 
padrões de ruído. 

Não é um procedimento comum realizar a filtragem 
passa-banda direta em uma imagem porque isso geralmente 
remove detalhes demais da imagem. No entanto, a filtragem 
passa-banda é bastante útil para isolar os efeitos sobre uma 
imagem causados por bandas de frequência selecionadas. Isso 
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(a) Imagem corrompida por ruído senoidal. (b) Espectro de (a). (c) Filtro rejeita-banda Butterworth (o branco representa 1). (d) Re- 


é ilustrado na Figura 5.17. Essa imagem foi gerada (1) utili- 
zando a Equação 5.4-1 para obter o filtro passa-banda cor- 
respondente ao filtro rejeita-banda da Figura 5.16; e (2) uti- 
lizando a transformada inversa da transformada filtrada pelo 
passa-banda. A maior parte dos detalhes da imagem foi per- 
dida, mas as informações remanescentes são bastante úteis, 
já que fica claro que o padrão de ruído recuperado utilizando 
esse método é bastante parecido com o ruído que corrompeu 
a imagem na Figura 5.16(a). Em outras palavras, a filtragem 
passa-banda ajudou a isolar o padrão de ruído. Trata-se de 
um resultado útil por simplificar a análise do ruído, de forma 
razoavelmente independente do conteúdo da imagem. 

E 


Figura 5.17 Padrão de ruído da imagem da Figura 5.16a obtido pela 
filtragem passa-banda. 
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543 Filtros notch 


Um filtro notch rejeita (ou passa) frequências em vi- 
zinhanças predefinidas em relação a uma frequência cen- 
tral. As equações para a filtragem notch são detalhadas 
na Seção 4.10.2. A Figura 5.18 mostra gráficos em 3-D 
de filtros notch (rejeita) ideal, Butterworth e gaussiano. 
Em virtude da simetria da transformada de Fourier, filtros 
notch devem aparecer em pares simétricos em relação à 
origem para obter resultados significativos. A única exce- 
ção a essa regra é se o filtro notch se localizar na origem, 
caso em que ele aparece sozinho. Apesar de mostrarmos 
apenas um par para fins de ilustração, o número de pares 
de filtros notch que podem ser implementados é arbitrá- 
rio. O formato das áreas selecionadas também pode ser 
arbitrário (por exemplo, retangular). 

Como explicamos na Seção 4.10.2, podemos obter 
filtros notch que passam, em vez de suprimir, as frequên- 
cias contidas nas áreas selecionadas. Como esses filtros 
realizam exatamente a função oposta à dos filtros rejeita- 
-notch, suas funções de transferência são dadas por 


Hu Y) = 1 — Hy, (u, Y) (5.4-2) 


na qual H, (u, v) é a função de transferência do filtro pas- 
sa-notch correspondente ao filtro rejeita-notch com função 
de transferência H y(u, v). 


m 
Exemplo 5.8 Remoção do ruído periódico pela filtragem 
notch. 


A Figura 5.19(a) mostra a mesma imagem que a Figu- 
ra 4.51 (a). O método de filtragem notch que se segue reduz o 


a 


ruído dessa imagem sem acrescentar o borramento significa- 
tivo que vimos na Seção 4.8.4. A menos que o borramento 
seja desejável por razões que discutimos naquela seção, a 
filtragem notch é preferível se um filtro adequado puder ser 
encontrado. 


Só de olhar as linhas quase horizontais do padrão de 
ruído da Figura 5.19(a), esperamos que sua contribuição ao 
domínio da frequência se concentre ao longo do eixo verti- 
cal. Contudo, o ruído não é suficientemente dominante para 
ter um padrão claro ao longo desse eixo, como é evidenciado 
no espectro mostrado na Figura 5.19(b). Podemos ter uma 
ideia da contribuição do ruído construindo um filtro passa- 
-notch ideal simples ao longo do eixo vertical da transforma- 
da de Fourier, como mostra a Figura 5.19(c). A representa- 
ção espacial do padrão de ruído (transformada inversa do re- 
sultado do filtro passa-notch) é mostrada na Figura 5.19(d). 
Esse padrão de ruído corresponde aproximadamente ao pa- 
drão da Figura 5.19(a). Tendo construído, dessa forma, um 
filtro passa-notch apropriado que isola o ruído em um grau 
razoável, podemos obter o filtro rejeita-notch corresponden- 
te a partir da Equação 5.4-2. O resultado do processamento 
da imagem com o filtro rejeita-notch é mostrado na Figura 
5.19(e). Essa imagem contém significativamente menos ru- 
ído visível de linhas de varredura do que a Figura 5.19(a). 

= 


5.4.4 Filtragem notch ótima 


A Figura 5.20(a), outro exemplo de degradação peri- 
ódica de imagem, mostra uma imagem digital da superfície 
de Marte obtida pela espaçonave Mariner 6. O padrão de in- 
terferência é, de certa forma, similar ao da Figura. 5.16(a), 
mas o padrão anterior é consideravelmente mais sutil e, 


Figura 5.18 


Gráficos em perspectiva de filtros notch (rejeita) (a) ideal, (b) Butterworth (de ordem 2) e (c) gaussiano. 
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Figura 5.19 


(a) Imagem de satélite da Flórida e do Golfo do México mostrando linhas de varredura horizontais. (b) Espectro. (c) Filtro passa- 


notch sobreposto a (b). (d) Padrão de ruído espacial. (e) Resultado da filtragem rejeita-notch. (Imagem original: cortesia da Noaa.) 


em consequência, de mais difícil detecção no plano da fre- 
quência. A Figura 5.20(b) mostra o espectro de Fourier 
da imagem em questão. Os componentes parecidos com 
estrelas foram causados pela interferência, e vários pares 
de componentes estão presentes, indicando que o padrão 
contém mais do que apenas um componente senoidal. 


Quando vários componentes de interferência estão 
presentes, os métodos discutidos nas seções anteriores 
nem sempre são aceitáveis porque podem remover muitas 
informações da imagem no processo de filtragem (uma ca- 
racterística muito indesejável quando as imagens são úni- 
cas e/ou de aquisição dispendiosa). Além disso, os com- 
ponentes de interferência em geral não são picos de uma 
única frequência. Em vez disso, eles tendem a ter mar- 
gens maiores que carregam informações sobre o padrão de 
interferência. Essas margens nem sempre são facilmente 


detectáveis a partir do fundo da transformada normal. Mé- 
todos de filtragem alternativos que reduzem o efeito des- 
sas degradações são bastante úteis em muitas aplicações. O 
método discutido aqui é ótimo, no sentido de minimizar as 
variâncias locais da estimativa restaurada f(x,y). 


O procedimento consiste em primeiro isolar as prin- 
cipais contribuições do padrão de interferência e depois 
subtrair uma parcela variável e ponderada do padrão da 
imagem corrompida. Apesar de desenvolvermos o pro- 
cedimento no contexto de uma aplicação específica, a 
abordagem básica é bastante genérica e pode ser aplicada 
a outras tarefas de restauração nas quais a interferência 
periódica múltipla constitui um problema. 

O primeiro passo é extrair os principais componentes 
de frequência do padrão de interferência. Assim como an- 
tes, isso pode ser feito com um filtro passa-notch, H (u, Y), 
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Figura 5.20 (a) Imagem da superficie de Marte obtida pelo Mariner 
6. (b) Espectro de Fourier mostrando a interferência periódica. (Corte- 
sia da Nasa.) 


na posição de cada pico. Se o filtro for construído para 
passar apenas componentes associados ao padrão de in- 
terferência, a transformada de Fourier do padrão do ruí- 
do de interferência é dada pela expressão 


N(u, v) = Ho (u, v)G(u, v) (5.4-3) 


na qual, como sempre, G(u, v) expressa a transformada 
de Fourier da imagem corrompida. 


A formulação de H, (u, v) requer uma análise consi- 
derável do que constitui ou não um pico de interferência. 
Por essa razão, o filtro passa-notch em geral é interativa- 
mente construído observando o espectro de G(u, v) em 
uma exibição. Depois que um filtro particular é selecio- 
nado, um padrão correspondente no domínio espacial é 
obtido a partir da expressão 


n(x, y) = {AL (u, V)G(u, v)) (5.4-4) 

Como presumimos que a imagem corrompida é for- 
mada pela adição da imagem não corrompida f(x, y) com 
a interferéncia, se 7(x, y) fosse completamente conhecido, 
seria simples subtrair o padrão de g(x, y) para obter f(x, y). 


O problema, obviamente, é que esse procedimento de 
filtragem normalmente resulta em apenas uma aproxi- 
mação do padrão verdadeiro. Em vez disso, o efeito dos 
componentes não presentes na estimativa de n(x, y) pode 
ser minimizado subtraindo de g(x, y) uma parcela ponde- 
rada de n(x, y) para obter uma estimativa de f(x, y): 


F(X) = g(x,y) — W(X, 9x, y) 


na qual, como antes, f (x,y) é a estimativa de f(x, y), e 
w(x, y) deve ser calculada. A função w(x, y) é chamada 
de função de ponderação ou modulação, e o objetivo do 
procedimento é selecionar essa função de forma que o re- 
sultado seja otimizado de algum modo significativo. Uma 
abordagem consiste em selecionar w(x, y) de forma que a 
variância da estimativa f(x,y) seja minimizada ao longo 
de uma vizinhança especificada de cada ponto (x, y). 


(5.4-5) 


Considere uma vizinhança de tamanho (2a + 1) por 
(2b + 1) em relação ao um ponto (x, y). A variância “lo- 
cal” de f(x,y) nas coordenadas (x, y) pode ser estimada 
com base nas amostras, como segue: 


a(x, y)= Rar E TE N a (x+s,y+t)— 


jm t=-b 


Fix, y) (5.4-6) 


sendo que f(x,y) expressa o valor médio de f na vizi- 
nhança; isto é 


= ay OST D x+s,y+t) 


=a t=—b 


(5.4-7) 


Os pontos na borda da imagem ou perto dela po- 
dem ser tratados considerando vizinhanças parciais ou 
preenchendo o contorno com zeros. 


Substituir a Equação 5.4-5 na Equação 5.4-6 resulta 
em 


aan Dls, y+t)— 


(2a +1 ME +1 ) = t=—b 
ne ty(x+s,y+t)] 


= wx, yoni} 


o(x,y) = 


[9(x,)) (5.4-8) 

Considerando que w(x, y) permanece essencial- 
mente constante ao longo da vizinhança, isso nos dá a 
aproximação 


w(x +s, y+ t) =w(x, y) (5.4-9) 


para -a < s < a e -b < t < b. Esse pressuposto também 
resulta na expressão 
(5.4-10) 


W(X, ym(x, y) = w(x, ymM(x, y) 


na vizinhança. Com essas aproximações, a Equação 5.4-8 
passa a ser 


on ey) ces mara Lalas 


| =m =—b 


w(x, y)n(x+s,y+t)]— 


[F(x y)—w(x, yx IP (54-11) 
Para minimizar o?(x,y), calculamos 
2 
OOD) 26 (5.4-12) 
Ow(x, y) 


para w(x, y). O resultado é 


IX, VINX, Y)— G(X, YMY) o 
my) (X,Y) 


w(x, y)= 
(5.4-13) 


Para obter a imagem restaurada f (x,y), calculamos 
w(x, y) a partir da Equação 5.4-13 e depois utilizamos a 
Equação 5.4-5. Como assumimos que w(x, y) é constante em 
uma vizinhança, é desnecessário calcular essa função para 
cada valor de x e y na imagem. Em vez disso, w(x, y) é calcu- 
lada para um ponto em cada vizinhança não sobreposta (de 
preferência o ponto central) e depois utilizada para processar 
todos os pontos da imagem contidos nessa vizinhança. 


= 
Exemplo 5.9 Ilustração da filtragem notch ótima. 


As figuras 5.21 a 5.23 mostram o resultado da aplica- 
ção da técnica discutida anteriormente à imagem da Figura 
5.20(a). O tamanho dessa imagem é 512 x 512 pixels, e foi 
selecionada uma vizinhança com a = b = 15. A Figura 5.21 
mostra o espectro de Fourier da imagem corrompida. A ori- 
gem não foi deslocada para o centro do plano da frequência 
neste caso específico, de forma que u = v = 0 se posiciona 


Figura 5.21 Espectro de Fourier (sem deslocamento) da imagem 
mostrada na Figura 5.20(a). (Cortesia da Nasa.) 
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no canto superior esquerdo da imagem da transformada na 
Figura 5.21. A Figura 5.22(a) mostra o espectro de N(u, v), 
no qual apenas os picos de ruído estão presentes. A Figura 
5.22(b) mostra o padrão de interferência n(x, y) obtido com 
a transformada inversa de Fourier de N(u, v). Observe a se- 
melhança entre esse padrão e a estrutura do ruído presente 
na Figura 5.20(a). Por fim, a Figura 5.23 mostra a imagem 
processada obtida com a Equação 5.4-5. A interferência pe- 
riódica foi removida para todos os fins práticos. 

= 


5.5 Degradacoes lineares, invariantes 
no espaço 
A relação entre entrada e saída na Figura 5.1 antes 
do estágio de restauração é expressa como 


g(x, y) = HIK, y)] +n(x, y) (3:3-1) 


Por enquanto, vamos supor que n (x, y) = 
que g(x, y) = f(x, y)]. 
Com base na análise da Seção 2.6.2, H é linear se 


H[af,(x, y) + bf (x, y)] 


0, de forma 


= aH{f (x, y)] + 
bHIÍ (x, ¥)] 


(5.5-2) 


Figura 5.22 (a) Espectro de Fourier de N(u, v). (b) Padrão de interfe- 
rência do ruído correspondente, n(x, y). (Cortesia da Nasa.) 
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Figura 5.23 


Imagem processada. (Cortesia da Nasa.) 


na qual a e b são escalares e f (x, y) e f(x, y) representam 
quaisquer duas imagens de entrada.” 


Se a = b = 1, a Equação 5.5-2 passa a ser 


HIS (X y) + f(x y) = HLE y) + HIS (x, 9)1(5.5-3) 


que é chamada de propriedade de aditividade. Essa proprie- 
dade simplesmente diz que, se H for um operador linear, 
a resposta a uma soma de duas entradas será igual à soma 
das duas respostas. 


Com f(x, y) = 0, a Equação 5.5-2 passa a ser 


Hlaf, (x, y)] = aH f(x, 9)] 


que é chamada de propriedade de homogeneidade. Segundo 
essa propriedade, a resposta a um múltiplo constante de 
qualquer entrada é igual à resposta a essa entrada multi- 
plicada pela mesma constante. Dessa forma, um operador 
linear apresenta tanto a propriedade de aditividade quanto 
a propriedade de homogeneidade. 


(5.5-4) 


Diz-se que um operador com a relação entrada-saída 
g(x, y) = HI fx, y)] é invariante no espaço (ou na posição) se 


H[fix-a,y-B)]=g(x-a,y-8) (5.5-5) 


para qualquer f(x, y) e qualquer a e (3. Essa definição indica 
que a resposta em qualquer ponto da imagem depende so- 
mente do valor da entrada nesse ponto, não de sua posição. 


Com uma ligeira (mas equivalente) variação de no- 
tação na definição do impulso na Equação 4.5-3, f(x, y) 
pode ser formulada como: 


* Consulte o site do livro para uma breve revisão da teoria de siste- 
mas lineares. 


fauna f f fa,B)ix-a,y-B)dads 


(5.5-6) 

Suponha novamente que n(x, y) = 0. Então, a subs- 

tituição da Equação 5.5-6 na Equação 5.5-1 resulta na 
expressão 


g(x, y)=H| f(x, 9) 
=H] f S (a, B)ó(x-a, y-p)dad B 
(5.5-7) 


Se H for um operador linear e estendermos a pro- 
priedade de aditividade às integrais, então 


gx y= f f. H[fla,8)6(x-a, y-Bldadg 
(5.5-8) 


Como f(a, 3) é independente de x e y, e utilizando a 
propriedade de homogeneidade, segue-se que 


gx y)= f f7 flo,8)H[5(x-a,y—8)|dads 
(5.5-9) 


O termo 


h(x, a, y, 8) = H[ó(x— a, y - 8)] 


é chamado de resposta ao impulso de H. Em outras palavras, 
se n(x, y) = 0 na Equação 5.5-1, então h(x, a, y, 6) é a res- 
posta de H a um impulso nas coordenadas (x, y). Na ótica, o 
impulso passa a ser um ponto de luz, e h(x, a, y, 3) costuma 
ser chamado de função de espalhamento de ponto (PSF, de point 
spread function). Esse termo se origina do fato de que todos os 
sistemas Óticos físicos borram (espalham) um ponto de luz 
em uma certa extensão, com a quantidade de borramento 
determinada pela qualidade dos componentes óticos. 


(5.5-10) 


Substituir a Equação 5.5-10 na Equação 5.5-9 re- 
sulta na expressão 


ax.y)= f | fla,B\h(x,a,y,3)dadp 
FREE (5.5-11) 


que é chamada de integral de superposição (ou de Fredholm) 
de primeira espécie. Essa expressão é um resultado funda- 
mental que reside no “coração” da teoria dos sistemas 
lineares. Ela afirma que, se a resposta de H a um impul- 
so for conhecida, a resposta para qualquer entrada fla, 5) 
pode ser calculada com base na Equação 5.5-11. Em ou- 
tras palavras, um sistema linear H é completamente carac- 
terizado por sua resposta ao impulso. 


Se H for invariante no espaço, então, a partir da 
Equação 5.5-5, 
H[4(x - a, y - 8)] = h(x-a, y- p) 


(5.5-12) 


Nesse caso, a Equação 5.5-11 é reduzida a 


so, y)= f | Fa phx-ay-pjdadp 
e (5.5-13) 
Essa expressão é a integral de convolução para uma 
variável apresentada na Equação 4.2-20 e estendida para 
2-D no Exercício 4.11. Essa integral nos indica que co- 
nhecer a resposta ao impulso de um sistema linear nos 
permite calcular sua resposta, g, para qualquer entrada f. 
O resultado é simplesmente a convolução da resposta ao 
impulso com a função de entrada. 


Na presença de ruído aditivo, a expressão do mode- 
lo de degradação linear (Equação 5.5-11) passa a ser 


ax,y)= f f fla.\h(x,0,y,8)dad 3+ 


(X,Y) (5.5-14) 


Se H for invariante no espaço, a Equação 5.5-14 passa 
a ser 


gx y= ff fla,B)h(x—a, y—B)dad B+ 


n(x, y) (5.5-15) 


Os valores do termo de ruído n(x, y) são aleatórios, 
e considera-se que eles sejam independentes da posição. 
Utilizando a notação já conhecida para a convolução, po- 
demos formular a Equação 5.5-15 como 


g(x, y) = h(x, y)xflx, y) + n(x y) (5.5-16) 


ou, com base no teorema da convolução (veja a Se- 
ção 4.6.6), podemos expressá-la no domínio da frequên- 
cia como 


G(u, v) = H(u, v)F(u, v) + N(u, v) (5.5-17) 


Essas duas expressões estão de acordo com as equa- 
ções 5.1-1 e 5.1-2. Tenha em mente que, para valores dis- 
cretos, todos os produtos são termo por termo. Por exem- 
plo, o termo ij de H(u, v)F(u, v) é o produto do termo ij de 
H(u, v) e do termo ij de F(u, v). 

Em resumo, a análise anterior sugere que um siste- 
ma de degradação linear e invariante no espaço com ruí- 
do aditivo pode ser modelado no domínio espacial como 
a convolução da função de degradação (espalhamento de 
ponto) com uma imagem, seguida da adição do ruído. 
Com base no teorema da convolução, o mesmo processo 
pode ser expresso no domínio da frequência como o pro- 
duto das transformadas da imagem e da função de degra- 
dação, seguido da adição da transformada do ruído. Ao 
trabalhar no domínio da frequência, utilizamos um algo- 
ritmo FFT, como vimos na Seção 4.11. Tenha em mente 
também a necessidade de preenchimento de função na 
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implementação das transformadas discretas de Fourier, 
como mostrado na Seção 4.6.6. 


Muitos tipos de degradações podem ser aproxima- 
dos por processos lineares, invariantes no espaço. A van- 
tagem desse método é que as extensas ferramentas de 
teoria dos sistemas lineares tornam-se disponíveis para 
solucionar problemas de restauração de imagens. Téc- 
nicas não lineares e dependentes da posição, apesar de 
mais gerais (e normalmente mais precisas), apresentam 
dificuldades que muitas vezes não têm solução conhecida 
ou são de difícil resolução em termos computacionais. 
Este capítulo se concentra em técnicas de restauração li- 
neares, invariantes no espaço. Como as degradações são 
formuladas como sendo o resultado da convolução, e a 
restauração busca encontrar filtros que aplicam o proces- 
so inverso, o termo deconvolução de imagens normalmente 
é utilizado em referência à restauração linear de ima- 
gens. De forma similar, os filtros utilizados no processo 
de restauração muitas vezes são chamados de filtros de 
deconvolução. 


5.6 Estimativa da função de degradação 


Existem três principais métodos para estimar a fun- 
ção de degradação para a utilização na restauração de 
imagens: (1) observação, (2) experimentação e (3) mode- 
lamento matemático. Esses métodos serão discutidos nas 
seções a seguir. O processo para restaurar uma imagem 
utilizando uma função de degradação que foi de alguma 
forma estimada algumas vezes é chamado de deconvolução 
cega, pelo fato de a verdadeira função de degradação rara- 
mente ser conhecida em sua totalidade. 


5.6.1 Estimativa pela observação da imagem 


Suponha que recebamos uma imagem degradada 
sem qualquer informação sobre a função de degradação 
H. Com base na premissa de que a imagem foi degradada 
por um processo linear, invariante no espaço, uma forma 
de estimar H é coletando informações da própria imagem. 
Por exemplo, se a imagem estiver borrada, podemos ana- 
lisar uma pequena seção retangular da imagem conten- 
do estruturas da amostra, como parte de um objeto e do 
fundo. Para reduzir o efeito do ruído, procuraríamos uma 
área na qual o conteúdo de sinal fosse intenso (por exem- 
plo, uma área com alto contraste). O próximo passo seria 
processar a subimagem para chegar a um resultado que 
seja o menos borrado possível. Por exemplo, podemos fa- 
zer isso aumentando a nitidez da subimagem com um 
filtro de aguçamento e até mesmo processando pequenas 
áreas manualmente. 
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Seja a subimagem observada expressa por g(x, y) 
e a subimagem processada (que, na realidade, é a nossa 
estimativa da imagem original nessa área) expressa por 
fix). Depois, considerando que o efeito do ruído é des- 
prezível em razão da nossa escolha de uma área de sinal 
forte, segue-se, da Equação 5.5-17, que 
H (u,v) = A 
Ê (u,v) 
Com base nas características dessa função, deduzi- 
mos a função de degradação completa H(u, v) com base 
no nosso pressuposto de invariância no espaço. Por exem- 
plo, suponha que um gráfico radial de H (u, v) tenha o 
formato aproximado de uma curva gaussiana. Podemos 
utilizar essa informação para construir uma função H(u, v) 
em uma escala maior, mas com o mesmo formato básico. 
Depois utilizamos H(u, v) em uma das abordagens de res- 
tauração que serão analisadas nas seções seguintes. Clara- 
mente, trata-se de um processo laborioso utilizado apenas 
em circunstâncias muito específicas, por exemplo, na res- 
tauração de uma antiga fotografia de valor histórico. 


(5.6-1) 


5.6.2 Estimativa por experimentação 


Se um equipamento similar ao utilizado na aquisi- 
ção da imagem degradada estiver disponível, é possível, 
em princípio, obter uma estimativa precisa da degrada- 
ção. Imagens similares à imagem degradada podem ser 
adquiridas com várias configurações de sistema até se- 
rem degradadas o mais próximo possível da imagem que 
desejamos restaurar. Então, a ideia é obter a resposta ao 
impulso da degradação a partir da aquisição da imagem 
de um impulso (pequeno ponto de luz) utilizando as mes- 
mas configurações do sistema. Como observado na Seção 
5.5, um sistema linear, invariante no sistema, é comple- 
tamente caracterizado por sua resposta ao impulso. Um 
impulso é simulado por um ponto claro de luz, o mais 
claro possível para reduzir o efeito do ruído a valores 
desprezíveis. Então, lembrando que a transformada de 
Fourier de um impulso é uma constante, segue-se da 
Equação 5.5-17 que 


RE G(u,v) 


(5.6-2) 


sendo que, como antes, G(u, v) é a transformada de Fou- 
rier da imagem observada e A é uma constante descre- 
vendo a intensidade do impulso. A Figura 5.24 mostra 
um exemplo. 


5.6.3 Estimativa por modelamento 


O modelamento da degradação tem sido utilizado 
durante muitos anos por permitir uma solução ao proble- 


ma de restauração de imagens. Em alguns casos, o mode- 
lo pode até levar em consideração condições ambientais 
que causam as degradações. Por exemplo, um modelo de 
degradação proposto por Hufnagel e Stanley (1964) se 
baseia nas características físicas da turbulência atmosféri- 
ca. Esse modelo tem uma fórmula já conhecida: 


5/6 


H(u, v) = e+) (5.6-3) 


na qual k é uma constante que depende da natureza da 
turbulência. Com exceção da potência 5/6 no expoen- 
te, essa equação tem a mesma forma que o filtro passa- 
baixa gaussiano discutido na Seção 4.8.3. Com efeito, o 
LPF gaussiano algumas vezes é utilizado para modelar um 
borramento leve, uniforme. A Figura 5.25 mostra exem- 
plos obtidos simulando o borramento de uma imagem 
utilizando a Equação 5.6-3 com valores de k = 0,0025 
(turbulência grave), k = 0,001 (turbulência suave) e 
k = 0,00025 (turbulência baixa). Todas as imagens são de 
tamanho 480 x 480 pixels. 


Outra importante abordagem no modelamento 
consiste em deduzir um modelo matemático a partir de 
princípios básicos. Ilustraremos esse procedimento tra- 
tando, em alguns detalhes, o caso no qual uma imagem 
foi borrada por movimento linear uniforme entre a ima- 
gem e o sensor durante sua aquisição. Suponha que uma 
imagem f(x, y) passe por um movimento planar e que 
x,(t) e y (f) sejam os componentes de movimento que va- 
riam com o tempo nas direções x e y, respectivamente. A 
exposição total em qualquer ponto do meio de gravação 
(digamos, filme ou memória digital) é obtida integrando 
a exposição instantânea ao longo do intervalo de tempo 
durante o qual o obturador do sistema de aquisição de 
imagens estiver aberto. 


Assumir que a abertura e o fechamento do obtu- 
rador ocorrem instantaneamente e que o processo de 
aquisição ótica de imagens é perfeito, isola o efeito do 
movimento da imagem. Então, se T for a duração da ex- 
posição, segue-se que 


gy) = f fl- xy- ylar (5.6-4) 


sendo g(x, y) a imagem borrada. 


Com base na Equação 4.5-7, a transformada de Fou- 
rier da Equação 5.6-4 é 


G(u,v) = J o J ICN xd 


SIP esto 


yo(t)|dtle TD dxdy 


(5.6-5) 
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Figura 5.24 Estimativa da degradação pela caracterização do impulso. (a) Impulso de luz (mostrado ampliado). (b) Imagem desse impulso 
(degradado). 


Figura 5.25 Exemplo de modelo de turbulência atmosférica. (a) Turbulência desprezível. (b) Turbulência grave, k= 0,0025. (c) Turbulência suave, 
k= 0,001. (d) Turbulência baixa, k= 0,00025. (Imagem original: cortesia da Nasa.) 
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Inverter a ordem da integração permite que a Equa- 
ção 5.6-5 seja expressa na forma 


cuy= [JS flexi. 
yalt) Je dxdy| dt (5.6-6) 


O termo entre os colchetes externos é a transfor- 
mada de Fourier da função deslocada f[x — x (t), y — y,(1)]. 
Utilizar a Equação 4.6-4 resulta na expressão 


T a 
G(u,v)= f F(u, yje PEO 
0 


T P 
= F(u,v) J e Pri gp (5,6-7) 
0 
na qual o ultimo passo resulta do fato de que F(u, v) in- 
depende de t. 


Definindo 


T P 
— —j2r[ux(t)+v yo(t)] = 
H(w,v)= f e dt (5.6-8) 
A Equação 5.6-7 pode ser expressa na fórmula com 
a qual já estamos familiarizados 


G(u, v) = H(u, v)F(u, v) (5.6-9) 
Se as variáveis de movimento x (1) e y,(t) forem co- 
nhecidas, a função de transferência H(u, v) pode ser ob- 
tida diretamente da Equação 5.6-8. A título de exemplo, 
suponha que a imagem em questão passe por um movi- 
mento linear uniforme somente na direção x, em uma 
velocidade dada por x (t) = at/T. Quando t = T, a imagem 
foi deslocada por uma distância total a. Com y,(t) = 0, a 
Equação 5.6-8 resulta em 


T i 
H(u,v)= f pm) jt 
0 


— Ceo dt 
0 
T 


—— sen(muaje '"“ 
mua 


(5.6-10) 


Figura 5.26 


Observe que H desaparece em valores de u dados por 
u = n/a, sendo n um número inteiro. Se permitirmos a va- 
riação também do componente y, com o movimento dado 
por y, = bt/T, então a função de degradação passará a ser’ 


H(u,v) = oa senta + vb)| einer) 
m™(ua + vb) (5.6-11) 
E 
Exemplo 5.10 Borramento de imagem em razão do 
movimento. 


A Figura 5.26(b) é uma imagem borrada obtida pelo 
cálculo da transformada de Fourier da imagem na Figura 
5.26(a), multiplicada por H(u, v) da Equação 5.6-11 e calcu- 
lando a transformada inversa. As imagens são de tamanho 
688 x 688 pixels, e os parâmetros utilizados na Equação 5.6-11 
forama=b=0,1eT=1.Como discutido nas seções 5.8 e 5.9, 
a recuperação da imagem original a partir de sua contraparte 
borrada apresenta alguns desafios interessantes, particular- 
mente quando o ruído estiver presente na imagem degradada. 

E 


5.7 Filtragem inversa 


O material apresentado nesta seção constitui nosso 
primeiro passo no estudo da restauração de imagens de- 
gradadas por uma função de degradação H, que é dada 
ou obtida por um método como os discutidos na seção 
anterior. A abordagem mais simples à restauração é a fil- 
tragem inversa direta, na qual calculamos uma estimati- 
va, F(u,v), da transformada da imagem original simples- 
mente dividindo a transformada da imagem degradada, 
G(u, v), pela função de degradação: 
_ G(u,v) 

H(u,v) 

A divisão é uma operação de arranjo matricial, como 

definimos na Seção 2.6.1 e em relação à Equação 5.5-17. 


(5.7-1) 


‘x 


(a) Imagem original. (b) Resultado do borramento utilizando a função da Equação 5.6-11 com a= b=0,1 e T=1. 


* Como explicado no final da Tabela 4.3, amostramos a Equação 5.6-11 em u e v para gerar um filtro discreto. 


Substituir G(u, v) da Equação 5.7-1 pelo lado direito da 
Equação 5.1-2 resulta em 


É(u,v)= F(u,v)+ a 
H(u,v) 
Trata-se de uma expressão interessante. Ela nos 
indica que, mesmo se soubermos a função de degrada- 
ção, não podemos recuperar a imagem não degradada [a 
transformada inversa de Fourier de F(u, v)] justamente 
porque N(u, v) não é conhecida. E temos mais más no- 
tícias. Se a função de degradação tiver zeros ou valores 
muito pequenos, a razão N(u, v)/H(u, v) pode facilmente 
dominar a estimativa F(u,v). Isso, na verdade, costuma 
ser 0 caso, como será demonstrado em breve. 


(5.7-2) 


Uma abordagem para contornar o problema do va- 
lor zero ou valor pequeno consiste em limitar as frequên- 
cias de filtro a valores próximos à origem. A partir da 
análise da Equação 4.6-21 sabemos que H(0, 0) costuma 
ser o mais alto valor de H(u, v) no domínio da frequên- 
cia. Assim, limitando a análise a frequências próximas à 
origem, reduzimos as chances de encontrar valores iguais 
a zero. Essa abordagem é ilustrada no exemplo a seguir. 
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= 
Exemplo 5.11 Filtragem inversa. 


A imagem da Figura 5.25(b) foi submetida à filtragem 
inversa com a Equação 5.7-1 utilizando exatamente a inver- 
sa da função de degradação que gerou essa imagem. Isto é, a 
função de degradação utilizada foi 


2,16 


H(u v= UM v—N/2)"] 


com k = 0,0025. As constantes M/2 e N/2 são valores utiliza- 
dos para deslocamento; eles centralizam a função de forma 
que ela corresponderá à transformada de Fourier centrali- 
zada, como vimos em várias ocasiões no capítulo anterior. 
Neste caso, M = N = 480. Sabemos que uma função de for- 
mato gaussiano não tem zeros, de forma que não precisa- 
mos nos preocupar com isso aqui. Contudo, apesar disso, os 
valores de degradação se tornam tão pequenos que o resul- 
tado da filtragem inversa completa (Figura 5.27(a)) é inútil, 
As razões para esse resultado insuficiente são as mesmas que 
vimos em relação à Equação 5.7-2. 

As figuras 5.27(b) e (d) mostram os resultados do recorte 
dos valores da razão G(u, v)/H(u, v) que estão fora de um raio de 
40, 70 e 85, respectivamente. O recorte foi implementado 
pela aplicação de uma função passa-baixa Butterworth 


Figura 5.27 Restauração da Figura 5.25(b) com a Equação 5.7-1. (a) Resultado da utilização do filtro inverso completo. (b) Resultado com H 
recortado fora de um valor de raio igual a 40; (c) fora de um raio de 70; e (d) fora de um raio de 85. 


232 Processamento digital de imagens 


de ordem 10 na razão G(u, v)/H(u, v). Isso proporcionou uma 
transição acentuada (porém suave) no raio desejado. Os raios 
próximos a 70 geraram os melhores resultados visuais (Fi- 
gura 5.27(c)). Os valores de raio inferiores a isso tenderam a 
produzir imagens borradas, como ilustrado na Figura 5.27(b), 
que foi obtida utilizando um valor de raio igual a 40. Valo- 
res acima de 70 começaram a produzir imagens degradadas, 
como ilustrado na Figura 5.27(d), que foi obtida utilizando 
um valor de raio igual a 85. O conteúdo da imagem é qua- 
se visível nessa imagem por trás de uma “cortina” de ruído, 
mas o ruído definitivamente domina o resultado. Aumentos 
maiores dos valores do raio produziram imagens cada vez 
mais parecidas com a Figura 5.27(a). 

E 


Os resultados do exemplo anterior exemplificam o 
desempenho insuficiente da filtragem inversa direta em 
geral. O tema básico das três seções a seguir é como me- 
lhorar a filtragem inversa direta. 


5.8 Filtragem de mínimo erro 
quadrático médio (Wiener) 

A abordagem da filtragem inversa que vimos na se- 
ção anterior não lida diretamente com o ruído. Nesta 
seção, veremos uma técnica que incorpora tanto a fun- 
ção de degradação quanto as características estatísticas do 
ruído no processo de restauração. O método se baseia em 
considerar imagens e ruído como variáveis aleatórias, e 
o objetivo é encontrar uma estimativa f da imagem não 
corrompida f, de forma que o erro quadrático médio en- 
tre eles seja minimizado.” Essa medida de erro é dada por 


e =E{f- f} 
na qual E (:) é o valor esperado do argumento. Presume- 
-se que o ruído e a imagem não sejam correlacionados, 
que o ruído ou a imagem tenha média zero e que os ní- 
veis de intensidade da estimativa sejam uma função li- 
near dos níveis da imagem degradada. Com base nessas 
condições, o mínimo da função de erro da Equação 5.8-1 
é dado no domínio da frequência pela expressão 


(5.8-1) 


x H*(u,v)S 


u,v) 
F(u, v)= 


( 
T 
S,(u,v)|H(u,v)| +S (u,v) 


G(u,v) 


= ae) G(u,v) 


|H(u,v)f +S, Mu, vW/S, (u,v) 


j 


1 |H(u,v) 
H(u,v) |H(u,v)f +5, (vis (u,v) 


G(u,v) 
(5.8-2) 


Observe que imagens inteiras estão sendo consideradas variáveis 
aleatórias, como vimos no final da Seção 2.6.8. 


na qual utilizamos o fato de que o produto de um va- 
lor complexo com seu conjugado é igual à magnitude do 
valor complexo ao quadrado. Esse resultado é conhecido 
como filtro de Wiener, em homenagem a N. Wiener (1942), 
o primeiro a propor esse conceito em 1942. O filtro, que 
consiste nos termos entre colchetes, também costuma 
ser chamado de filtro de mínimo erro quadrático médio ou 
filtro de mínimo erro quadrático. Incluímos referências no 
final do capítulo de textos contendo análises detalhadas 
do filtro de Wiener. Observe, na primeira linha da Equação 
5.8-2, que o filtro de Wiener não apresenta o mesmo proble 
ma que o filtro inverso com zeros na função de degrada- 
ção, a menos que todo o denominador seja zero para o(s) 
mesmo(s) valor(es) de u e v. 


Os termos da Equação 5.8-2 são os seguintes: 
H(u, v) = função de degradação 

H*(u, v) = conjugado complexo de H(u, v) 
lH(u, v)? = H*(u, v) H(u, v) 


S (u, v) = IN(u, v)l? = espectro de potência do ruído 
(veja a Equação 4.6-18)” 


S, (u, v) = IF(u, v)P= espectro de potência da imagem 
não degradada 

Como antes, H(u, v) é a transformada da função de 
degradação e G(u, v) é a transformada da imagem degra- 
dada. A imagem restaurada no domínio espacial é dada 
pela transformada inversa de Fourier da estimativa no 
domínio da frequência, F(u,v). Observe que, se o ruído 
for zero, o espectro de potência do ruído desaparece, e o 
filtro de Wiener é reduzido ao filtro inverso. 


Várias medidas úteis se baseiam nos espectros de 
potência do ruído e da imagem não degradada. Um dos 
mais importantes é a relação sinal-ruído (SNR, de signal-to- 
noise ratio), cuja estimativa aproximada é calculada utili- 
zando valores no domínio da frequência como 


SS ru vp 


SNR — u=0 v=0 


MAI NA 


SS vu vf 


u=0 v=0 


(5.8-3) 


Essa razão dá uma medida do nível de informação que 
relaciona a potência do sinal (isto é, da imagem original, 
não degradada) e a potência do ruído. Imagens com baixo 
nível de ruído tendem a apresentar uma alta SNR e, por ou- 


* O termo IN(u, v)? também é chamado de autocorrelação do 
ruído. Essa terminologia provém do teorema da correlação (pri- 
meira linha do item 7 da Tabela 4.3). Quando as duas funções 
são iguais, a correlação passa a ser uma autocorrelação, e o lado 
direito dessa relação passa a ser N*(u, v) N(u, v), que é igual a 
IN(u, v)l?. Comentários similares se aplicam a IF(u, v)?, que é a 
autocorrelação da imagem. Discutiremos a correlação em mais 
detalhes no Capítulo 12. 


tro lado, a mesma imagem com um nível mais alto de ruído 
apresenta uma SNR mais baixa. Essa relação em si tem valor 
limitado, mas é uma medida importante utilizada na carac- 
terização do desempenho dos algoritmos de restauração. 


O erro quadrático médio (MSE, de mean square error), 
expresso na forma estatística na Equação 5.8-1, também 
pode ser aproximadamente estimado em termos de um 
somatório envolvendo as imagens original e restaurada: 


MSE = SS ren- fem) (5.8-4) 


x=0y=0 

Na verdade, se considerarmos a imagem restaurada 
como um “sinal” e a diferença entre essa imagem e a ori- 
ginal como ruído, podemos determinar a relação sinal- 
ruído no domínio do espaço como 


BR 
SNR = yy (5.8-5) 
[ry - fle) 


Quanto mais próximos forem fe Î , maior será a SNR. 
Algumas vezes a raiz quadrada dessas medidas é utilizada, 
caso no qual elas são chamadas de erro da raiz quadrática mé- 
dia e raiz quadrática média da relação sinal-ruído, respectiva- 
mente. Como mencionamos várias vezes antes, tenha em 
mente que as métricas quantitativas não necessariamente 
se relacionam bem com a qualidade percebida na imagem. 


Quando estamos lidando com o ruído espectral- 
mente branco, o espectro IN(u, v)? é uma constante, o 
que simplifica consideravelmente as coisas. No entan- 
to, o espectro de potência da imagem não degradada 
raramente é conhecido. Uma abordagem utilizada fre- 
quentemente quando esses valores não são conhecidos ou 
não podem ser estimados consiste em aproximar a Equa- 
ção 5.8-2 pela expressão 
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Rune (uv) G(u,v) (5.8-6) 
A(U,V)|H(u,v)| +K 


sendo K uma constante especificada adicionada a todos 
os termos de IH(u, v)?. Os exemplos a seguir ilustram a 
utilização dessa expressão. 


= 
Exemplo 5.12 Comparação entre a filtragem inversa e a 
filtragem de Wiener. 


A Figura 5.28 mostra a vantagem da filtragem de Wie- 
ner em relação à filtragem inversa direta. A Figura 5.28(a) 
apresenta o resultado da filtragem inversa completa da Fi- 
gura 5.27(a). De forma similar, a Figura 5.28(b) é o resultado 
do filtro inverso radialmente limitado da Figura 5.27(c). Es- 
sas imagens são duplicadas aqui para facilitar as compara- 
ções. A Figura 5.28(c) mostra o resultado obtido utilizando 
a Equação 5.8-6 com a função de degradação utilizada no 
Exemplo 5.11. O valor de K foi escolhido interativamente 
para gerar os melhores resultados visuais. A vantagem do 
filtro de Wiener sobre o filtro inverso direto fica clara neste 
exemplo. Comparando as figuras 5.25(a) e 5.28(c), vemos 
que o filtro de Wiener gerou um resultado muito similar à 
imagem original. 
a 


E 
Exemplo 5.13 Outras comparações da filtragem de 
Wiener. 


A primeira linha da Figura 5.29 mostra, da esquerda 
para a direita, a imagem borrada da Figura 5.26(b) forte- 
mente corrompida por ruído gaussiano aditivo de média 
zero e variância 650; o resultado da filtragem inversa direta; 
e o resultado da filtragem de Wiener. O filtro de Wiener da 
Equação 5.8-6 foi utilizado, com H(u, v) do Exemplo 5.10 
e com K escolhido interativamente para produzir o melhor 
resultado visual possível. Como era de esperar, o filtro in- 
verso produziu uma imagem inútil. Observe que o ruído da 


Figura 5.28 Comparação entre a filtragem inversa e a filtragem de Wiener. (a) Resultado da filtragem inversa completa da Figura 5.25(b). 
(b) Resultado do filtro inverso radialmente limitado. (c) Resultado do filtro de Wiener. 
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E 


Figura 5.29 


(a) Uma imagem de 8 bits corrompida por borramento de movimento e ruído aditivo. (b) Resultado da filtragem inversa. (c) Resul- 


tado da filtragem de Wiener. (d) a (f) Mesma sequência, mas com a variância de ruído reduzida em uma ordem de magnitude. (g) a (i) Mesma 
sequência, mas com a variância de ruído reduzida em cinco ordens de magnitude em relação a (a). Observe em (h) como a imagem submetida à 
redução de borramento é relativamente visível através de uma “cortina” de ruído. 


imagem submetida à filtragem inversa é tão intenso que sua 
estrutura tende na direção do filtro de redução de borramento 
(deblurring). O resultado do filtro de Wiener está longe de 
ser perfeito, mas nos dá uma ideia do conteúdo da imagem. 
Com alguma dificuldade, o texto é legível. 


A segunda linha da Figura 5.29 mostra a mesma se- 
quência, mas com o nível de variância do ruído reduzido de 
uma ordem de magnitude. Essa redução não teve um grande 
efeito sobre o filtro inverso, mas os resultados do filtro de 
Wiener foram consideravelmente melhorados. O texto agora 
é muito mais fácil de ler. Na terceira linha da Figura 5.29, a 
variância do ruído foi reduzida mais do que cinco ordens de 
magnitude em relação à primeira linha. Na verdade, a Figura 
5.29(g) não apresenta ruído visível. O resultado do filtro in- 
verso é interessante neste caso. O ruído ainda é bastante vi- 


sível, mas o texto pode ser visto através de uma “cortina” de 
ruído. Trata-se de um bom exemplo dos nossos comentários 
em relação à Equação 5.7-2. Em outras palavras, como é evi- 
dente na Figura 5.29(h), o filtro inverso foi bastante capaz de 
eliminar essencialmente o borramento da imagem. Contudo, 
o ruído ainda domina o resultado. Se pudéssemos “olhar” 
por trás do ruído nas figuras 5.29(b) e (e), os caracteres tam- 
bém apresentariam muito pouco borramento. O resultado 
do filtro de Wiener na Figura 5.29(i) é excelente, bastante 
próximo visualmente da imagem original na Figura 5.26(a). 
Esses tipos de resultados são representativos do que é possi- 
vel fazer com a filtragem de Wiener, desde que uma estimati- 


va razoável da função de degradação esteja disponível. 
E 


5.9 Filtragem por mínimos quadráticos 


com restrição 


O problema de precisarmos saber alguma informa- 
ção sobre a função de degradação H é comum a todos os 
métodos discutidos neste capítulo. No entanto, o filtro de 
Wiener apresenta uma dificuldade adicional: os espectros 
de potência da imagem não degradada e do ruído devem 
ser conhecidos. Mostramos na seção anterior que é pos- 
sível atingir excelentes resultados utilizando a aproxima- 
ção dada na Equação 5.8-6. No entanto, uma estimativa 
constante da relação dos espectros de potência nem sem- 
pre é uma solução apropriada. 


O método discutido nesta seção requer conheci- 
mento apenas da média e da variância do ruído. Como 
vimos na Seção 5.2.4, esses parâmetros podem normal- 
mente ser calculados a partir de uma dada imagem de- 
gradada, de forma que se trata de uma importante van- 
tagem. Uma outra diferença é que o filtro de Wiener se 
baseia na minimização de um critério estatístico e, como 
tal, é ótimo no sentido de obter valores aproximados. O 
algoritmo apresentado nesta seção tem a notável carac- 
terística de gerar um resultado ótimo para cada imagem 
à qual ele é aplicado. Naturalmente, é importante ter em 
mente que esses critérios de otimização, apesar de satis- 
fatórios do ponto de vista teórico, não são relacionados 
à dinâmica da percepção visual. Consequentemente, a 
escolha de um algoritmo em detrimento de outro qua- 
se sempre será determinada (pelo menos em parte) pela 
qualidade visual percebida das imagens resultantes. 


Utilizando a definição da convolução dada na Equa- 
ção 4.6-23, como explicamos na Seção 2.6.6, pode mos 
expressar a Equação 5.5-16 na forma matriz-vetor:” 


g=Hf+n (5.9-1) 


Por exemplo, suponha que g(x, y) seja de tamanho M 
x N. Com isso, podemos calcular os primeiros N elementos 
do vetor g utilizando os elementos de imagem da primeira 
linha de g(x, y), os próximos N elementos da segunda linha 
e assim por diante. O vetor resultante terá dimensões MN x 
1. Essas também são as dimensões de f e n, já que esses ve- 
tores são formados da mesma maneira. Então, a matriz H 
tem dimensões MN x MN. Seus elementos são dados pelos 
elementos da convolução fornecida pela Equação 4.6-23. 


Seria razoável concluir que o problema de restauração 
agora pode ser reduzido a manipulações matriciais simples. 
Infelizmente, não é esse o caso. Por exemplo, suponha que 
estejamos trabalhando com imagens de tamanho médio, 
digamos M = N = 512. Então os vetores na Equação 5.9-1 


Consulte o site do livro para uma breve revisão sobre vetores e 
matrizes. 
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seriam de dimensões 262.144 x 1 e a matriz H seria de di- 
mensões 262.144 x 262.144. Manipular vetores e matrizes 
com dimensões dessa magnitude não é uma tarefa simples. 
O problema fica ainda mais complicado pelo fato de H ser 
altamente sensível ao ruído (depois das experiências que 
tivemos com o efeito do ruído nas duas seções anteriores, 
isso não deveria ser uma surpresa). No entanto, formular o 
problema da restauração em formato matricial de fato faci- 
lita a dedução de técnicas de restauração. 


Apesar de não deduzirmos inteiramente o método 
dos mínimos quadráticos com restrição, que apresentare- 
mos em breve, esse método tem raízes em uma formula- 
ção matricial. As referências apresentadas no final do ca- 
pítulo citam fontes nas quais as deduções são analisadas 
em detalhes. O fundamental neste método é a questão 
da sensibilidade de H ao ruído. Uma forma de atenuar 
o problema de sensibilidade ao ruído é basear a otimiza- 
ção da restauração em uma medida de suavidade, como 
a segunda derivada de uma imagem (nosso velho ami- 
go laplaciano). Para ser significativa, a restauração deve 
ser restrita pelos parâmetros dos problemas em questão.” 
Dessa forma, é desejável calcular o mínimo de uma fun- 
ção de critério, C, definida como 


c= SV fx, yf 


x=0 y=0 


(5.9-2) 


sujeita à restrição 


lg nt =m 


sendo que Ihw!ll à w'w é a norma euclidiana de um ve- 
tor” ef é a estimativa da imagem não degradada. O ope- 
rador laplaciano V? é definido na Equação 3.6-3. 


(5.9-3) 


A solução no domínio da frequência para esse pro- 
blema de otimização é dada pela expressão 
H*(u,v) 


F(u,v) = E 
|H(u,v)| + y|P(u,v) 


i G(u,v) (5.9-4) 
na qual y é um parâmetro que deve ser ajustado de forma 


que a restrição na Equação 5.9-3 seja satisfeita e P(u, v) é 
a transformada de Fourier da função 


O —1 0 


p(x,y)=| -1 4 -l1 
0 -l 0 


(5.9-5) 


Reconhecemos essa função como o operador lapla- 
ciano apresentado na Seção 3.6.2. Como observado an- 


“ Consulte a seção Tutoriais no site do livro para um capítulo intei- 
ro dedicado ao tópico das técnicas algébricas para a restauração 
de imagens. 


“ Lembre-se que, para um vetor w com n componentes, temos 


w'w=)_w;, em que w, é o k-ésimo componente de w. 
k=l 


236 Processamento digital de imagens 


teriormente, é importante ter em mente que p(x, y), bem 
como outras funções relevantes no domínio espacial, devem 
ser adequadamente preenchidas com zeros antes do cálculo 
de suas transformadas de Fourier para a aplicação na Equa- 
ção 5.9-4, como vimos na Seção 4.6.6. Observe que a 
Equação 5.9-4 se reduz à filtragem inversa se y for zero. 


= 

Exemplo 5.14 Comparação entre a filtragem de Wiener 
e a filtragem por mínimos quadráticos 
com restrição. 


A Figura 5.30 mostra o resultado do processamento 
das figuras 5.29(a), (d) e (g) com filtros de mínimos qua- 
dráticos com restrição, nos quais os valores de ^ foram ma- 
nualmente selecionados para obter melhores resultados vi- 
suais. Esse é o mesmo procedimento utilizado para gerar os 
resultados da filtragem de Wiener na Figura 5.29(c), (f) e 
(i). Comparando os resultados do filtro de mínimos quadrá- 
ticos com restrição e do filtro de Wiener, observamos que o 
primeiro filtro gerou resultados ligeiramente melhores para 
casos com alto e médio nível de ruído, com os dois filtros 
gerando essencialmente os mesmos resultados para o caso 
de baixo nível de ruído. Não é de se surpreender que o filtro 
dos mínimos quadráticos com restrição apresente um de- 
sempenho melhor que o filtro de Wiener quando seleciona- 
mos manualmente os parâmetros para melhores resultados 
visuais. O parâmetro ^ na Equação 5.9-4 é escalar, ao passo 
que o valor de K na Equação 5.8-6 é uma aproximação da 
razão de duas funções desconhecidas no domínio da frequ- 
ência; essa razão raramente é constante. Dessa forma, é ló- 
gico que um resultado baseado na seleção manual de Y seria 
uma estimativa mais exata da imagem não degradada. 

E 


Como vimos no exemplo anterior, é possível ajustar 
interativamente o parâmetro y até que resultados aceitáveis 
sejam atingidos. Se estivermos interessados na otimização, 
contudo, o parâmetro ^ deve ser ajustado de forma que a 


restrição na Equação 5.9-3 seja satisfeita. Apresentamos a 
seguir um procedimento para o cálculo de por interações. 


Definimos um vetor “residual” r como 
r=g- Hf 
Como, a partir da solução na Equação 5.9-4, F(u,v) 
(e, por implicação, f) é uma função de y, então r também 
é uma função desse parâmetro. Pode ser demonstrado 
[Hunt (1973)] que 


(5.9-6) 


ol) =r"r 


: (5.9-7) 
= |r| 


é uma função monotonicamente crescente de y. O que 
queremos fazer é ajustar y de forma que 


Ill? = Inf + a (5.9-8) 


sendo a um fator de exatidão. Como resultado da Equa- 
ção 5.9-6, se lirli? > IIml2, a restrição na Equação 5.9-3 s 
erá rigorosamente satisfeita. 
Como à(7) é monotônico, não é difícil encontrar o 
valor desejado de y. Uma metodologia seria a seguinte: 
1. Especifique um valor inicial de 7. 
2. Calcule Ilrll2. 
3. Pare se a Equação 5.9-8 for satisfeita; se não, volte 
. 2 2 
ao passo 2 depois de aumentar y se Ir” <ln —a 
ou reduzir y se Irl > [n| + a. Use o novo valor de 
yna Equação 5.9-4 para recalcular a estimativa óti- 
ma, F(u, v). 


Outros procedimentos, como o algoritmo de 
Newton-Raphson, podem ser utilizados para melhorar a 
velocidade da convergência. 

Para utilizar esse algoritmo, precisamos dos valores 
de lirl? e Ill. Para calcular Ilrl2, observamos, a partir da 
Equação 5.9-6, que 


A 


R(u,v) = G(u,v) — H(u,v)F(u,v) 


(5.9-9) 


Figura 5.30 Resultados da filtragem por mínimos quadráticos com restrição. Compare (a), (b) e (c) com os resultados da filtragem de Wiener 


das figuras 5.29(c), (f) e (i), respectivamente. 


Com isso, obtemos r(x, y) pelo cálculo da transformada 
inversa de R(u, v). Então 


Ir = a r (x,y) 


x=0 y=0 

O cálculo de Ilmll? leva a um resultado interessante. Para 
começar, considere a variância do ruído ao longo de toda 
a imagem, que estimamos pelo método da média amos- 
tral, como vimos na Seção 3.3.4: 


(5.9-10) 


2 l DI 2 
g = n(x, y)— m, (5.9-11) 
n MN 2324! | 
sendo que 
1 = 
m, =— X Y (x,y) (5.9-12) 
/ MN x=0 y= 


é a média da amostra. No que se refere à fórmula da Equa- 
ção 5.9-10, observamos que o duplo somatório na Equação 
5.9-11 é igual a liņll?. Isso nos dá a expressão 


[n]? = mnto? +m? (5.9-13) 


Trata-se de um resultado bastante útil. Ele nos in- 
forma que podemos implementar um algoritmo de res- 
tauração ótimo conhecendo apenas a média e a variância 
do ruído. Não é difícil estimar esses valores (Seção 5.2.4), 
considerando que os valores de intensidade do ruído e da 
imagem não são correlacionados. Trata-se de um pressu- 
posto básico de todos os métodos discutidos neste capítulo. 


= 
Exemplo 5.15 Estimativa iterativa do filtro ótimo por 
mínimos quadráticos com restrição. 

A Figura 5.31 (a) mostra o resultado obtido utilizando 
o algoritmo que acabamos de descrever para estimar o filtro 
ótimo de restauração da Figura 5.25(b). O valor inicial utiliza- 
do para y foi 10°, o fator de correção para ajustar ^ foi 10% 
e o valor de a foi 0,25. Os parâmetros de ruído especificados 
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foram os mesmos utilizados para gerar a Figura 5.25(a): uma 
variância de ruído de 10° e média zero. O resultado restau- 
rado é quase tão bom quanto a Figura 5.28(c), que foi obtida 
pela filtragem de Wiener com K especificada manualmente 
para os melhores resultados visuais. A Figura 5.31(b) mostra 
o que pode acontecer se utilizarmos a estimativa errada dos 
parâmetros de ruído. Nesse caso, a variância do ruído especi- 
ficada foi 107, e a média foi mantida no valor 0. O resultado, 


neste caso, é consideravelmente mais borrado. 
= 


Como afirmamos no início desta seção, é importante 
ter em mente que a restauração ótima no sentido dos 
mínimos quadráticos com restrição não implica necessa- 
riamente “o melhor” em termos visuais. Dependendo da 
natureza e da magnitude da degradação e do ruído, os 
outros parâmetros do algoritmo para determinar iterati- 
vamente a estimativa ótima também exercem um papel 
no resultado final. Em geral, filtros de restauração deter- 
minados automaticamente levam a resultados inferiores 
em relação ao ajuste manual de parâmetros do filtro. Isso 
é particularmente verdadeiro em relação ao filtro por mí- 
nimos quadráticos com restrição, que é completamente 
especificado por um parâmetro escalar único. 


5.10 Filtro de média geométrica 


É possível generalizar ligeiramente o filtro de Wie- 
ner discutido na Seção 5.8. A generalização é realizada na 
forma do chamado filtro de média geométrica: 


Fu) H*(u,v) ae E Gu) 
OY) voti 
SHON 5 10-1) 


com a e 5 sendo constantes reais, positivas. O filtro de 
média geométrica consiste nas duas expressões entre col- 
chetes elevadas às potências a e 1 — a, respectivamente. 


Figura 5.31 


(a) Restauração da Figura 5.16(b) por mínimos quadráticos com restrição, determinados iterativamente utilizando parâmetros 
corretos de ruído. (b) Resultado obtido com parâmetros errados de ruído. 
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Quando a = 1, esse filtro se reduz ao filtro inverso. 
Com a = 0, o filtro se torna o que chamamos de filtro 
paramétrico de Wiener, que se reduz ao filtro de Wiener 
padrão quando ĝ = 1. Se a = 1/2, o filtro passa a ser um 
produto dos dois valores elevados à mesma potência, que 
é a definição da média geométrica, que dá o nome ao 
filtro. Com 6 = 1, à medida que a decresce para valores 
menores do que 1/2, o desempenho do filtro tende para o 
filtro inverso. De forma similar, quando a aumenta para 
valores acima de 1/2, o filtro se comporta mais como o 
filtro de Wiener. Quando a = 1/2 e 8 = 1, o filtro também 
é comumente chamado de filtro de equalização de espectro. 
A Equação 5.10-1 é bastante útil ao implementar filtros de 
restauração por representar uma família de filtros combi- 
nados em uma única expressão. 


5.11 Reconstrução de imagens a partir 
de projeções 
Nas seções anteriores deste capítulo, lidamos com 
técnicas de restauração de uma versão degradada de uma 
imagem. Nesta seção, analisaremos o problema da recons- 
trução de uma imagem a partir de uma série de projeções, 
com foco na tomografia computadorizada (CT, de computerized 


Feixe 


Perfil de a 


tomography) de raios X. Trata-se do tipo de CT mais antigo 
e ainda o mais amplamente utilizado e que atualmente 
constitui uma das principais aplicações do processamento 
digital de imagens na medicina. 


5.11.1 Introdução 


O problema da reconstrução é em princípio simples, 
e pode ser qualitativamente explicado de forma direta e 
intuitiva. Para começar, vejamos a Figura 5.32(a), que 
consiste em um único objeto sobre um fundo uniforme. 
Para dar sentido físico à explicação a seguir, suponha que 
essa imagem seja um corte transversal de uma região 3-D 
de um corpo humano. Suponha também que o fundo da 
imagem represente um tecido mole e uniforme, ao passo 
que o objeto redondo é um tumor, também uniforme, mas 
com características de maior absorção. 


Depois, suponha que passemos um feixe fino e uni- 
forme de raios X da esquerda para a direita (através do 
plano da imagem), como mostra a Figura 5.32(a), e consi- 
dere que a energia do feixe seja mais absorvida pelo objeto 
do que pelo fundo, como costuma ser o caso. Utilizar uma 
faixa de detectores de absorção de raios X no outro lado 
da região resultará no sinal (perfil de absorção) mostrado, 


=|| b 
= 
— 


dn 


Figura 5.32 


(a) Região plana mostrando um objeto simples, um feixe paralelo de entrada e uma faixa de detectores. (b) Resultado da retroproje- 


ção dos dados obtidos com a faixa de sensores (isto é, o perfil de absorção 1-D). (c) O feixe e os detectores rotacionados a 90º. (d) Retroprojeção. 
(e) A soma de (b) e (d). A intensidade na qual as retroprojeções se cruzam é duas vezes a intensidade das retroprojeções individuais. 


* Como observamos no Capítulo 1, o termo tomografia axial computadorizada (CAT, de computerized axial tomography) é utilizado como sinôni- 


mo de tomografia computadorizada (CT). 


cuja amplitude (intensidade) é proporcional à absorção. 
Podemos ver qualquer ponto do sinal como a soma dos 
valores de absorção de um único raio do feixe que corres- 
ponde espacialmente a esse ponto (uma soma como essa 
muitas vezes é chamada de soma de raios ou raysum). Neste 
ponto, toda a informação que temos sobre o objeto é esse 
sinal de absorção 1-D. 


Não temos como saber, a partir de uma única pro- 
jeção, se estamos lidando com um único objeto ou vários 
objetos ao longo do caminho do feixe, mas começamos a 
reconstrução criando uma imagem baseada apenas nessa 
informação. A técnica é voltar a projetar o sinal 1-D na di- 
reção da qual o feixe veio, como mostra a Figura 5.32(b). 
O processo de retroprojeção de um sinal 1-D em uma área 
2-D algumas vezes se refere a espalhar a projeção no sentido 
contrário através da área. Em termos de imagens digitais, 
isso significa duplicar o mesmo sinal 1-D pela imagem per- 
pendicularmente à direção do feixe. Por exemplo, a Figura 
5.32(b) foi criada duplicando o sinal 1-D em todas as colu- 
nas da imagem reconstruída. Por razões óbvias, a técnica 
que acabamos de descrever é chamada de retroprojeção. 


Em seguida, suponha que rotacionemos em 90º a 
posição do par fonte-detector, como na Figura 5.32(c). 
Repetir o procedimento explicado no parágrafo anterior 
resulta em uma imagem de retroprojeção na direção verti- 
cal, como mostra a Figura 5.32(d). Continuamos a recons- 
trução adicionando esse resultado à retroprojeção anterior, 
o que resulta na Figura 5.32(e). Agora podemos dizer que 


e 
-| 


Figura 5.33 
ções com distância de 5,625° (note o efeito borrado). 
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o objeto de interesse está contido no quadrado mostrado, 
cuja amplitude é duas vezes a amplitude das retroproje- 
ções individuais. Um pouco de reflexão revelará que deve- 
ríamos ser capazes de saber mais sobre o formato do objeto 
em questão obtendo mais projeções pelo procedimento 
que acabamos de descrever. Na verdade, isso é exatamen- 
te o que acontece, como mostra a Figura 5.33. À medida 
que o número de projeções aumenta, a intensidade das 
retroprojeções que não se cruzam diminui em relação à 
intensidade das regiões nas quais as múltiplas retroproje- 
ções se cruzam. O efeito final é que as regiões mais claras 
dominarão o resultado e as retroprojeções com pouca ou 
nenhuma intersecção desaparecerão no plano de fundo à 
medida que a imagem é ajustada para a exibição. 


A Figura 5.33(f), formada a partir de 32 projeções, 
ilustra esse conceito. Observe, contudo, que, apesar de essa 
imagem reconstruída ser uma aproximação relativamente 
boa do formato do objeto original, é borrada por um efeito 
de “halo”, cuja formação pode ser vista em estágios pro- 
gressivos na Figura 5.33. Por exemplo, o halo na Figura 
5.33(e) aparece como uma “estrela” cuja intensidade é 
mais baixa que a do objeto, mas mais alta que a do fun- 
do. À medida que o número de visualizações aumenta, o 
formato do halo se torna circular, como na Figura 5.33 (f). 
O borramento na reconstrução CT é um problema impor- 
tante, cuja solução é descrita na Seção 5.11.5. Por fim, 
concluímos, com base na análise das figuras 5.32 e 5.33, 
que projeções com 180º entre si são imagens espelhadas 


Ea 
- 


(a) Igual à Figura 5.32(a). (b) a (e) Reconstrução usando 1, 2, 3, e 4 projeções com distância de 45°. (f) Reconstrução com 32 proje- 


* Uma análise das características físicas das fontes e detectores de raios X está fora do escopo desta discussão, a qual se concentra apenas nos 
aspectos de processamento de imagens da CT. Veja Prince e Links (2006) para uma excelente introdução aos aspectos físicos da formação 


de imagens por raios X. 
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uma da outra; assim, só precisamos levar em consideração 
incrementos angulares ao redor de meio círculo para gerar 
todas as projeções necessárias para a reconstrução. 


E 
Exemplo 5.16 Retroprojeção de uma região planar 
simples contendo dois objetos. 


A Figura 5.34 ilustra a reconstrução utilizando retro- 
projeções em uma região ligeiramente mais complicada que 
contém dois objetos com diferentes propriedades de absor- 
ção. A Figura 5.34(b) mostra o resultado da utilização de 
uma retroprojeção. Observamos três características princi- 
pais nessa figura, de baixo para cima: uma banda horizontal 
cinza fina correspondente à porção não concluída do peque- 
no objeto, uma banda mais clara (mais absorção) acima dela 
correspondente à área compartilhada pelos dois objetos e 
uma banda superior correspondente ao resto do objeto elíp- 
tico. As figuras 5.34(c) e (d) mostram a reconstrução utili- 
zando duas projeções com 90º entre elas e quatro projeções 
com 45º entre elas, respectivamente. A explicação dessas fi- 
guras é similar à análise das figuras 5.33(c) a (e). As figuras 
5.34(e) e (f) mostram reconstruções mais precisas utilizando 
32 e 64 retroprojeções, respectivamente. Esses dois resulta- 
dos são bastante próximos visualmente e os dois mostram o 
problema do borramento mencionado anteriormente, cuja 
solução explicaremos na Seção 5.11.5. 

= 


5.11.2 Principios da tomografia computadorizada (CT) 


A meta da CT de raios X é obter uma representação 
3-D da estrutura interna de um objeto radiografando esse 


objeto de várias direções diferentes. Imagine uma radio- 
grafia tradicional de tórax, obtida posicionando o pacien- 
te contra uma placa ou um filme sensível aos raios X e 
“iluminando” a pessoa com um feixe de raios X na forma 
de um cone. O filme de raios X produz uma imagem cuja 
intensidade em um ponto é proporcional à energia do raio 
X que atinge esse ponto depois de ter passado através do 
paciente. Essa imagem é o equivalente 2-D das projeções 
que analisamos na seção anterior. Poderíamos realizar a 
retroprojeção da imagem inteira e criar um volume 3-D. 
Repetir esse processo para vários ângulos e acrescentar 
as retroprojeções resultaria na representação 3-D da es- 
trutura da cavidade peitoral. A CT tenta obter as mesmas 
informações (ou partes localizadas delas) gerando fatias 
através do corpo. Então, uma representação 3-D pode ser 
obtida empilhando as fatias. Uma implementação de CT 
é muito mais econômica, porque o número de detectores 
necessários para obter uma fatia de alta resolução é muito 
menor que o número de detectores necessários para ge- 
rar uma projeção 2-D completa com a mesma resolução. 
O custo computacional e as dosagens de raios X também 
são reduzidos, fazendo da projeção CT 1-D uma aborda- 
gem muito mais prática. 


Como no caso da transformada de Fourier que vi- 
mos no capítulo anterior, conceitos matemáticos básicos 
necessários para a CT já haviam sido desenvolvidos anos 
antes de se tornarem viáveis, graças à disponibilidade dos 
computadores digitais. As bases teóricas da CT remon- 
tam de Johann Radon, um matemático de Viena que em 
1917 deduziu um método para projetar um objeto 2-D 


Figura 5.34 


(a) Uma região com dois objetos. (b) a (d) Reconstrução utilizando 1, 2 e 4 retroprojeções separadas de 45º. (e) Reconstrução com 


32 retroprojeções separadas de 5,625º. (f) Reconstrução com 64 retroprojeções separadas de 2,8125°. 


ao longo de raios paralelos como parte de seu trabalho 
com integrais de linha. O método atualmente costuma ser 
chamado de transformada de Radon, um tópico que ana- 
lisaremos na seção a seguir. Quarenta e cinco anos mais 
tarde, Allan M. Cormack, um físico da Tufts University, 
“redescobriu” parcialmente esses conceitos e os aplicou à 
CT. Cormack publicou seus primeiros resultados em 1963 
e 1964 e demonstrou como eles poderiam ser utilizados 
para reconstruir imagens de corte transversal do corpo a 
partir de imagens de raios X obtidas em diferentes dire- 
ções angulares. Ele desenvolveu as fórmulas matemáticas 
necessárias para a reconstrução e desenvolveu um protó- 
tipo de CT para mostrar a viabilidade de suas ideias. Tra- 
balhando independentemente, o engenheiro eletricista 
Godfrey N. Hounsfield e seus colegas da EMI, em Londres, 
formularam uma solução similar e construíram o primeiro 
aparelho de CT de aplicação médica. Cormack e Hounsfield 
receberam juntos o Prêmio Nobel de Medicina de 1979 por 
suas contribuições para a tomografia médica. 


ad 
Detector 
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Os scanners CT de primeira geração (G1) utilizavam um 
feixe de raios X em forma de “lápis” e um único detector, 
como mostra a Figura 5.35(a). Para um dado ângulo de 
rotação, o par fonte/detector é transladado em incremen- 
tos ao longo da direção linear mostrada. Uma projeção 
(como as da Figura 5.32) é gerada medindo a saída do 
detector em cada incremento de translação. Após uma 
translação linear completa, o conjunto fonte/detector é 
rotacionado e o procedimento é repetido para gerar uma 
outra projeção em um ângulo diferente. O procedimento 
é repetido para todos os ângulos desejados no intervalo 
[0º, 180º] para gerar um conjunto completo de projeções, 
das quais uma imagem é gerada pela retroprojeção, como 
explicamos na seção anterior. A marca de um “x” na ca- 
beça do paciente indica movimento na direção perpen- 
dicular ao plano do par fonte/detector. Um conjunto de 
imagens de corte transversal (fatias) é gerado movendo 
gradativamente o paciente após cada varredura comple- 
ta (scan) no plano fonte/detector. Empilhar computacio- 


a 
55556 


Figura 5.35 Quatro gerações de scanners CT. As linhas tracejadas com setas indicam o movimento linear incremental. Os arcos tracejados com 


uam 


setas indicam a rotação incremental. A marca de um “x” na cabeça do paciente indica o movimento linear perpendicular ao plano do papel. As 
setas duplas em (a) e (b) indicam que o conjunto fonte/detector é transladado e depois retornado à posição original. 
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nalmente essas imagens produz um volume 3-D de uma 
seção do corpo. Os scanners G1 não são mais fabricados 
para a obtenção de imagens médicas, mas, por produzi- 
rem um feixe de raios paralelos (como na Figura 5.32), 
sua geometria é a mais utilizada para apresentar os fun- 
damentos da aquisição de imagens de CT. Como veremos 
na próxima seção, essa geometria é o ponto de partida 
para deduzir as equações necessárias para implementar a 
reconstrução de imagens a partir de projeções. 


Os scanners CT de segunda geração (G2) (Figura 5.35(b)) 
funcionam com base no mesmo princípio que os scanners 
G1, mas o feixe utilizado tem o formato de um “leque”. Isso 
permite a utilização de múltiplos detectores, o que requer 
menos translações do par fonte/detector. Os scanners de ter- 
ceira geração (G3) representam uma melhora significativa em 
relação às duas gerações anteriores de geometrias de CT. 
Como mostra a Figura 5.35(c), os scanners G3 empregam 
um banco de detectores longo o suficiente (da ordem de mil 
detectores individuais) para cobrir todo o campo de visão de 
um feixe mais amplo. Consequentemente, cada incremento 
de ângulo produz uma projeção completa, eliminando a ne- 
cessidade de transladar o par fonte/detector, como requer a 
geometria dos scanners G1 e G2. Os scanners de quarta geração 
(G4) vão um passo além. Ao empregar um anel circular de 
detectores (da ordem de 5 mil detectores individuais), só 
a fonte precisa ser rotacionada. A principal vantagem dos 
scanners G3 e G4 é a velocidade. As principais desvantagens 
são o custo e um maior espalhamento de raios X, o que re- 
quer doses mais altas do que os scanners G1 e G2 para atingir 
características comparáveis de relação sinal-ruído. 


Modalidades mais recentes de varredura estão co- 
meçando a ser adotadas. Por exemplo, os scanners CT 
de quinta geração (G5), também conhecidos como scan- 
ners de tomografia computadorizada por feixe de elétrons 
(EBCT, de electron beam computed tomography), eliminam 
todo o movimento mecânico empregando feixes de elé- 
trons controlados eletromagneticamente. Ao atingir ano- 
dos de tungstênio que cercam o paciente, esses feixes pro- 
duzem raios X que então são moldados em um feixe no 
formato de leque que passa através do paciente e estimu- 
la um anel de detectores, como nos scanners G4. 


A forma convencional na qual as imagens CT são ob- 
tidas consiste em manter o paciente imóvel durante o tem- 
po de varredura necessário para gerar uma imagem. A var- 
redura é interrompida enquanto a posição do paciente é 
incrementada na direção perpendicular ao plano de aqui- 
sição de imagens utilizando uma mesa motorizada. A pró- 
xima imagem é então obtida e o procedimento é repetido o 
número de incrementos necessários para cobrir uma seção 
especificada do corpo. Apesar de uma imagem poder ser 
obtida em menos de um segundo, existem procedimen- 
tos (por exemplo, para imagens de abdome e tórax) que 


requerem que o paciente prenda a respiração durante a 
aquisição da imagem. Concluir esses procedimentos para, 
digamos, 30 imagens, pode demandar vários minutos. 
Uma abordagem cuja utilização está se popularizando é a 
CT helicoidal, algumas vezes chamada de CT de sexta geração 
(G6). Com esse método, um scanner G3 ou G4 é configu- 
rado utilizando os chamados anéis de contato (slip rings), 
que eliminam a necessidade de cabeamento elétrico e de 
sinais entre as fontes/detectores e a unidades de processa- 
mento. O par fonte/detector é continuamente rotacionado 
a 360º enquanto o paciente é movido em uma velocidade 
constante ao longo do eixo perpendicular à varredura. O 
resultado é um volume helicoidal contínuo de dados que é 
processado para obter imagens de fatias individuais. 


Scanners de sétima geração (G7) (também chamados de 
multislice CT scanners) estão surgindo com feixes “espessos” 
em forma de leque utilizados em conjunto com bancos para- 
lelos de detectores para coletar simultaneamente dados vo- 
lumétricos de CT. Dessa forma, fatias “grossas” 3-D de corte 
transversal, em vez de imagens únicas de corte transversal, 
são geradas para cada descarga de raios X. Além de um au- 
mento significativo de detalhes, essa abordagem tem a van- 
tagem de utilizar tubos de raios X de modo mais econômico, 
reduzindo, assim, o custo e, potencialmente, a dosagem. 


A partir da próxima seção, desenvolveremos as fer- 
ramentas matemáticas necessárias para formular a pro- 
jeção de imagens e os algoritmos de reconstrução. Nosso 
foco será nas bases do processamento de imagens que 
fundamentam todas as abordagens de CT que acabamos 
de discutir. Informações relativas às características meca- 
nicas e de fonte/detector dos sistemas CT são fornecidas 
nas referências citadas no final do capítulo. 


5.11.3 Projeções e a transformada de Radon" 


A seguir, desenvolveremos em detalhes a matemática 
necessária para a reconstrução de imagens no contexto da 
tomografia computadorizada por raios X, mas os mesmos 
princípios básicos são aplicáveis em outras modalidades de 
aquisição de imagens tomográficas, como o SPECT (tomo- 
grafia por emissão de fóton único), PET (tomografia por 
emissão de pósitrons), MRI (ressonância magnética) e algu- 
mas modalidades da aquisição de imagens por ultrassom. 


Ao longo desta seção, seguimos a convenção da CT e posiciona- 
mos a origem do plano xy no centro, e não no canto superior 
esquerdo, como vínhamos fazendo até agora (veja a Seção 2.4.2). 
Observe, contudo, que ambos são sistemas de coordenadas des- 
tros, e a única diferença é que o nosso sistema de coordenadas de 
imagens não tem eixos negativos. Podemos dar conta da diferen- 
ça com uma simples translação da origem, de forma que as duas 
representações sejam equivalentes. 


Uma linha reta em coordenadas cartesianas pode 
ser descrita na forma inclinação-intersecção, y = ax + b, ou, 
como na Figura 5.36, por sua representação normal: 


xcos0+ysend=p (5.11-1) 

A projeção de um feixe de raios paralelos pode 
ser formada por um conjunto dessas linhas, como 
mostra a Figura 5.37. Um ponto arbitrário no sinal de 
projeção é dado pela soma de raios ao longo da linha 
x cos 0, + y sen 0, = p, Trabalhando com valores 
contínuos” por enquanto, a soma de raios é uma inte- 


gral de linha, dada por 


so 00)=[ f f(x, y)6(x cos 6, + 


ysen 6, —p,)dxdy (5.11-2) 


na qual utilizamos as propriedades do impulso, 6, discuti- 
das na Seção 4.5.1. Em outras palavras, o lado direito da 
Equação 5.11-2 é zero a não ser que o argumento de 6 
seja zero, indicando que a integral é calculada apenas ao 
longo da linha x cos 0, + y sen 6, = p, Se considerarmos to- 
dos os valores de p e 6, a equação anterior é generalizada a 


sto. )= [| fsx cos 0+ 


ysen 6—p)dxdy (5.11-3) 


Essa equação, que nos da a projeção (integral de linha) 
de f(x, y) ao longo de uma linha arbitrária no plano xy, é 
a transformada de Radon que mencionamos na seção ante- 
rior. A notação R(flx, y)} ou Rif} por vezes é utilizada no 
lugar de g(p,0) na Equação 5.11-3 para expressar a trans- 
formada de Radon de f, mas o tipo de notação utilizada 
na Equação 5.11-3 é mais comum. Como ficará claro na 
análise a seguir, a transformada de Radon representa a 
base da reconstrução a partir de projeções, com a tomo- 
grafia computadorizada sendo sua principal aplicação na 
área do processamento de imagens. 


No caso discreto, a Equação 5.11-3 passa a ser 


MA NA 


9(p,0)= SS So F(x, y)ó(x cos 0 + ysen@ — p) 


x=0 y=0 


(5.11-4) 


na qual x, y, p e O agora são variáveis discretas. Se man- 
tivermos @ fixo e permitirmos que p varie, veremos que 
5.11-4 simplesmente soma os pixels de f(x, y) ao longo da 


* No Capítulo 4, tomamos muito cuidado ao indicar coordenadas 
contínuas de imagens por (t, z) e coordenadas discretas por (x, y). 
Na ocasião, essa distinção era importante porque estávamos desen- 
volvendo conceitos básicos para nos levar de valores contínuos a 
amostrados. Já na presente discussão, passaremos tantas vezes de 
coordenadas contínuas para discretas e vice-versa, que seguir essa 
convenção pode gerar uma confusão desnecessária. Por esse motivo, 
e também para seguir a literatura publicada na área [por exemplo, 
veja Prince e Links (2006)], deixaremos que o contexto determine 
se as coordenadas (x, y) são contínuas ou discretas. Quando elas fo- 
rem contínuas, você verá integrais; se não, você verá somatórios. 
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Um ponto g(p;, 04) 


na projeção 
Projeção completa, g (p, 04), 8 ae 


para um ângulo fixo 


Figura 5.37 Geometria de um feixe de raios paralelos. 


linha definida pelos valores especificados desses dois pará- 
metros. Incrementar todos os valores de p necessários para 
incluir a imagem (com 6 fixo) resulta em uma projeção. Al- 
terar 0 e repetir o procedimento anterior resulta em outra 
projeção e assim por diante. As projeções da Seção 5.11.1 
foram geradas justamente dessa forma. 


= 
Exemplo 5.17 Utilização da transformada de Radon para 
obter a projeção de uma região circular. 
Antes de prosseguir, ilustraremos como utilizar a 


transformada de Radon para obter uma expressão analítica 
para a projeção do objeto circular da Figura 5.38(a): 


A x? +y? < r? 
0 caso contrário 


fæ] 


na qual A é uma constante e r é o raio do objeto. Conside- 
ramos que o círculo está centralizado na origem do plano 
xy. Como o objeto é circularmente simétrico, suas projeções 


— 


Figura 5.36 Representação normal de uma linha reta. 
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Figura 5.38 (a) Um disco e (b) um gráfico de sua transformada de 
Radon, deduzido analiticamente. Neste caso, podemos traçar o dia- 
grama da transformada porque ela depende de apenas uma variável. 
Quando g depende tanto de p quanto de 0, a transformada de Radon 
se torna uma imagem cujos eixos são p e 6 e a intensidade de um 
pixel é proporcional ao valor de g na posição desse pixel. 


são as mesmas para todos os ângulos, de forma que tudo o 
que precisamos fazer é obter a projeção para 0 = 0º. Então, a 
Equação 5.11-3 passa a ser 


spo = [" f fól- p)áxay 


=f fey 


na qual a segunda linha resulta da Equação 4.2-10. Como 
observamos anteriormente, trata-se de uma integral de li- 
nha (ao longo da linha L(p, 0), neste caso). Além disso, note 
que g(p,0)= 0 quando lp Sf: Quando |p| <r, a integral é 


calculada de y = Jr? — p? para y = yr’ — p’. 


Dessa forma, 


glp,0) = W 


Jr- 
=p 


Realizar a integração resulta em 


Ante 2 
2 r p lol<r 


0 se nao 


9(9,0) = g(p) = 


na qual utilizamos o fato mencionado de que g(p,@) = 0, 
quando lol > r. A Figura 5.38(b) mostra o resultado, que 
está de acordo com as projeções ilustradas nas figuras 5.32 e 


5.33. Note que g(p,0) = 9(p), isto é, que g é independente de 
0 porque o objeto é simétrico em relação à origem. 
E 


Quando a transformada de Radon, g(p,0), é exibida 
como uma imagem com p e À como coordenadas retiline- 
as, o resultado é chamado de senograma, conceitualmente 
similar à exibição do espectro de Fourier (diferentemen- 
te da transformada de Fourier, contudo, 9(p,0) é sempre 
uma função real). Da mesma forma que a transformada 
de Fourier, um senograma contém os dados necessários 
para reconstruir f(x, y). Como no caso de visualização do 
espectro de Fourier, um senograma pode ser facilmente 
interpretado para regiões simples, mas se torna cada vez 
mais difícil de “ler” à medida que a região sendo projeta- 
da se torna mais complexa. Por exemplo, a Figura 5.39(b) 
é o senograma do retângulo à esquerda. Os eixos verti- 
cal e horizontal correspondem a 6 e p, respectivamente. 
Dessa forma, a linha inferior é a projeção do retângulo 
na direção horizontal (isto é, 0 = 0º) e a linha do meio 
é a projeção na direção vertical (0 = 90°). O fato de a 
porção diferente de zero da linha inferior ser menor que 
a porção diferente de zero da linha do meio nos indica 
que o objeto é mais estreito na direção horizontal. O fato de 
o senograma ser simétrico nas duas direções em relação ao 
centro da imagem nos informa que estamos lidando com 
um objeto simétrico e paralelo aos eixos x e y. Por fim, o 
senograma é suave, indicando que o objeto tem intensi- 
dade uniforme. Além desses tipos de observações gerais, 
não podemos dizer muito mais sobre esse senograma.” 


A Figura 5.39(c) mostra uma imagem do phantom de 
Shepp-Logan, uma imagem sintética amplamente utiliza- 
da desenvolvida para simular a absorção de importantes 
áreas do cérebro, incluindo pequenos tumores. O seno- 
grama dessa imagem é consideravelmente mais difícil de 
interpretar, como mostra a Figura 5.39(d). Ainda é pos- 
sível inferir algumas propriedades de simetria, mas não 
podemos dizer muito mais do que isso. A análise visual de 
senogramas tem utilização prática limitada, mas algumas 
vezes é útil no desenvolvimento de algoritmos. 


O principal objetivo da CT é obter uma representa- 
ção 3-D de um volume a partir de suas projeções. Como 
apresentamos intuitivamente na Seção 5.11.1, o método 
utilizado consiste em realizar a retroprojeção de cada pro- 
jeção e depois somar todas as retroprojeções para gerar 
uma imagem (fatia). Empilhar todas as imagens resultan- 


* Para gerar arranjos matriciais com linhas de mesmo tamanho, a 
dimensão mínima do eixo p nos senogramas corresponde à maior 
dimensão encontrada durante a projeção. Por exemplo, o tama- 
nho mínimo de um senograma de um quadrado de tamanho 
M x M obtido utilizando incremento de 1º é 180 x Q, sendo Q o 
menor número inteiro maior que J2M. 
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Figura 5.39 Duas imagens e seus senogramas (transformadas de Radon). Cada linha de um senograma é uma projeção ao longo do ângulo 
correspondente no eixo vertical. A imagem (c) é chamada de phantom de Shepp-Logan. Em sua forma original, o contraste do phantom é bastante 


baixo. Aqui ele é mostrado realçado para facilitar a visualização. 


tes produz uma representação 3-D do volume. Para obter 
uma expressão formal de uma imagem retroprojetada da 
transformada de Radon, vamos começar com um único 
ponto, 9(p,/9,) da projeção completa, g(p,0,), para um va- 
lor fixo de rotação, 0, (veja a Figura 5.37). Formar parte de 
uma imagem a partir da retroprojeção desse único ponto 
equivale a copiar a linha L(p,0,) na imagem, na qual o 
valor de cada ponto dessa linha é 9(0,0,). Repetir esse 
procedimento para todos os valores de p, no sinal proje- 
tado (mas mantendo o valor de 0 fixo em 6,) resulta na 
expressão a seguir: 


fy, (X,Y) = 9(p.0,) 
= g(xcos0, + ysen0,,0,) 


para a imagem correspondente à retroprojeção da pro- 
jeção obtida com um ângulo fixo, 0, como na Figura 
5.32(b). Essa equação se mantém para um valor arbitrá- 
rio de 6,, de forma que podemos escrever, em geral, que 
a imagem formada a partir de uma única retroprojeção 
obtida em um ângulo à é dada por 


h(x y) = g(x cos 8 + y sen 9, 0) (5.11-5) 


Formamos a imagem final por meio da integração 
de todas as imagens retroprojetadas: 


flxy)= f fole, y)dO (5.11-6) 


No caso discreto, a integral se torna uma soma de todas as 
imagens retroprojetadas: 

z 

fix y=) hy) 

0=0 
sendo que x, y e 0 agora são variáveis discretas. Lembre- 
se, com base na análise apresentada na Seção 5.11.1, 
que as projeções em 0º e 180º são imagens espelhadas 
uma da outra, de forma que os somatórios são realiza- 
dos até o último incremento angular antes de 180º. Por 
exemplo, se estivermos utilizando incrementos de 0,5º, 
o somatório é de O a 179,5 em incrementos de meio 
grau. Uma imagem retroprojetada formada do modo 
que acabamos de descrever algumas vezes é chamada 
de laminograma. Está implícito que um laminograma é 
apenas uma aproximação da imagem da qual as proje- 
ções foram geradas, um fato que é ilustrado claramente 
no exemplo a seguir. 


(5.11-7) 


= 
Exemplo 5.18 Obtenção de imagens retroprojetadas a 
partir de senogramas. 


A Equação 5.11-7 foi utilizada para gerar imagens 
retroprojetadas nas figuras 5.32 a 5.34, a partir de proje- 
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ções obtidas com a Equação 5.11-4. De forma similar, essas 
equações foram utilizadas para gerar as figuras 5.40(a) e (b), 
que mostram as imagens retroprojetadas correspondentes 
aos senogramas das figuras 5.39(b) e (d), respectivamente. 
Como no caso de figuras anteriores, notamos um borramen- 
to significativo, de forma que fica claro que uma utilização 
direta das equações 5.11-4 e 5.11-7 não gerará resultados 
aceitáveis. Sistemas experimentais de CT mais antigos eram 
baseados nessas equações. No entanto, como veremos na 
Seção 5.11.5, é possível realizar melhoras significativas na 
reconstrução reformulando o método da retroprojeção. 

E 


511.4 O teorema da fatia de Fourier 


Nesta seção, deduzimos um resultado fundamental 
relacionando a transformada de Fourier 1-D de uma pro- 
jeção e a transformada de Fourier 2-D da região a partir da 
qual a projeção foi obtida. Essa relação constitui a base 
dos métodos de reconstrução capazes de lidar com o pro- 
blema do borramento que acabamos de discutir. 


A transformada de Fourier 1-D de uma projeção em 
relação a p é 


Glw,)= [" 9lp,0)e?™ dp 


na qual, como na Equação 4.2-16, w é a variável de fre- 
quência, e entende-se que essa expressão é válida para 
um dado valor de 6. Substituir g(p,0) pela Equação 5.11-3 
resulta na expressão 


(5.11-8) 


Gw=f f f fys coso+ 
y sen—p)e 2" dxdydp 
=[ ff f` Sxcoso+ 
yseno pj 2 play 


=j T. flx, yje Pys dydy 
(5.11-9) 


Figura 5.40 Retroprojeções dos senogramas da Figura 5.39. 


sendo que o último passo resulta da propriedade do im- 
pulso que mencionamos anteriormente nesta seção. Com 
u =w cos 0 e v = w sen 0, a Equação 5.11-9 passa a ser 


JaSt 


e Ir dydy] 


G(w,0) = 


(5.11-10) 


u=w cos 0;v=wsen O 


Reconhecemos essa expressão como a transformada 
de Fourier 2-D de f(x, y) (veja a Equação 4.5-7), calculada 
para os valores indicados de u e v. Isto é, 


G(p,.0)=[F(u,v)] 


= F(wcos0,wsen 0) 


u=wcosb;v=wsen 0 


(5.11-11) 


na qual, como de costume, F(u, v) expressa a transforma- 
da de Fourier 2-D de f(x, y). 


A Equação 5.11-11 é conhecida como o teorema da fa- 
tia de Fourier (ou teorema da projeção-fatia). O teorema afirma 
que a transformada de Fourier de uma projeção é uma fatia 
da transformada de Fourier 2-D da região a partir da qual 
a projeção foi obtida. A razão para essa terminologia pode 
ser explicada com a ajuda da Figura 5.41. Como mostra essa 
figura, a transformada de Fourier 1-D de uma projeção ar- 
bitrária é obtida extraindo os valores de F(u, v) ao longo de 
uma linha orientada no mesmo ângulo que o utilizado para 
gerar a projeção. Em princípio, poderíamos obter f(x, y) sim- 
plesmente obtendo a transformada inversa de Fourier de 
F(u, v).' No entanto, isso tem um alto custo computacional 
e envolve inverter uma transformada 2-D. A metodologia 
discutida na seção a seguir é muito mais eficiente. 


5.11.5 Reconstrução utilizando retroprojeções 
filtradas por feixes paralelos 


Como vimos na Seção 5.11.1 e no Exemplo 5.18, 
obter as retroprojeções de maneira direta gera resulta- 
dos inaceitavelmente borrados. Felizmente, esse proble- 
ma tem uma solução direta baseada apenas na filtragem 
das projeções antes de calcular as retroprojeções. A partir 
da Equação 4.5-8, temos que a transformada inversa de 
Fourier 2-D de F(u, v) é 


fley= ff Fay) 


ef Me dudy (5.11-12) 


Se, como nas equações 5.11-10 e 5.11-11, fizermos 
u =w cos 0 e v = w sen 0, os diferenciais passam a ser 


Tenha em mente que o borramento também estará presente em 
uma imagem recuperada utilizando a transformada inversa de 
Fourier, porque o resultado é equivalente ao obtido utilizando o 
método analisado na seção anterior. 


Projeção ~ 


Figura 5.41 


Transformada 
de Fourier 
1-D 
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Transformada de „ 
Fourier A 
2-D 


F(u, v) 


y 


Ilustração do teorema da fatia de Fourier. A transformada de Fourier 1-D de uma projeção é uma fatia da transformada de Fourier 


2-D da região a partir da qual a projeção foi obtida. Observe a correspondência do ângulo . 


du dv = w dw db, e podemos expressar a Equação 5.11-12 
em coordenadas polares:” 


27 po 
f= f Gi F(w cos 0, wsen0) 
gi2mulxcosd+ysend) 7 dQ 


Então, utilizando o teorema da fatia de Fourier, 


fan = fo [> atwo 


2 mxcosbkysend) 4 do 


(5.11-13) 


(5.11-14) 


Ao dividir essa integral em duas expressões, uma 
para 0 no intervalo 0º a 180º e a outra no intervalo 180º a 
360º, e utilizando o fato de que G(w, 6 + 180º) = G(- w, 0) 
(veja o Exercício 5.32), podemos expressar a Equação 
5.11-14 como 


fes [o f klet, 
ei2molxcosb+ysend) d do (5.11-15) 


Em termos de integração referente a w, o termo x 
cos 0 + y sen 0 é uma constante que reconhecemos como 
p a partir da Equação 5.11-1. Dessa forma, a Equação 
5.11-15 pode ser expressa como: 


fixy= f f blew.) 


j2mwp | 
e dw p=x cos0-+y sen p 


(5.11-16) 


A expressão interna é expressa na forma de uma 
transformada inversa de Fourier 1-D (veja a Equação 
4.2-17), com o termo adicionado lwl que, com base na 
análise da Seção 4.7, reconhecemos como uma função fil- 
tro unidimensional. Observe que lwl é um filtro rampa (veja 


* Arelação du dv=wdw dO provém do cálculo integral básico, no qualo 
jacobiano é utilizado como a base para uma alteração das variáveis. 


a Figura 5.42(a)).” Essa função não é integrável porque 
sua amplitude se estende a +% em ambas as direções, de 
forma que a transformada inversa de Fourier é indefinida. 
Teoricamente, isso é solucionado com métodos como a uti- 
lização das chamadas funções delta generalizadas. Na prática, a 
técnica consiste em aplicar uma janela à rampa de forma 
que ela passe a ser zero fora de um intervalo de frequência 
definido. Isto é, uma janela limita a banda do filtro rampa. 


A abordagem mais simples para limitar a banda de 
uma função é utilizar um filtro retangular no domínio da 
frequência. No entanto, como vimos na Figura 4.4, um 
filtro retangular tem propriedades indesejáveis de ringing, 
de forma que uma janela suave é utilizada em seu lugar. 
A Figura 5.42(a) mostra um gráfico do filtro rampa de- 
pois de ter a banda limitada por uma janela retangular, 
e a Figura 5.42(b) mostra sua representação no dominio 
do espaço, obtida calculando sua transformada inversa 
de Fourier. Como esperávamos, o filtro de janelamento 
resultante apresenta um ringing visível no domínio do es- 
paço. Sabemos, com base no Capítulo 4, que a filtragem 
no domínio da frequência equivale à convolução no do- 
mínio do espaço, de forma que a filtragem espacial com 
uma função que apresenta ringing também produzirá um 
resultado também corrompido pelo ringing. O janelamento 
com uma função suave ajuda nessa situação. Uma função 
de janela discreta de M pontos, utilizada frequentemente 
para implementação com a FFT 1-D, é dada por 


c+(c—ljcos one 
h(wj= 1" M-1 


0 se não 


0<w<(M-l) 


(5.11-17) 


“O filtro rampa é muitas vezes chamado de filtro de Ram-Lak, em 
homenagem a Ramachandran e Lakshminarayanan (1971), que 
em geral são considerados os primeiros a sugeri-lo. 
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Figura 5.42 


Domínio do 
espaço 


Domínio da 
frequência 


(a) Gráfico no domínio da frequência do filtro |w| depois ter sua banda limitada por um filtro retangular. (b) Representação no domí- 


nio do espaço. (c) Função de janelamento de Hamming. (d) Filtro de rampa janelado, formado pelo produto de (a) e (c). (e) Representação espacial 


do produto (observe a redução do efeito de ringing). 


Quando c = 0,54, essa função é chamada de janela de 
Hamming (em homenagem a Richard Hamming) e, quan- 
do c = 0,5, ela é chamada de janela de Hann (em home- 
nagem a Julius von Hann). A principal diferença entre as 
janelas de Hamming e de Hann é que, na janela de Hann, 
os pontos finais são zero. A diferença entre as duas geral- 
mente é imperceptível nas aplicações de processamento 
de imagens. 


A Figura 5.42 (c) mostra um gráfico da janela de Ham- 
ming, e a Figura 5.42(d) mostra o produto dessa janela e 
do filtro de rampa de banda limitada da Figura 5.42(a). A 
Figura 5.42 (e) mostra a representação do produto no do- 
mínio do espaço, obtido, como de costume, pelo cálculo 
da FFT inversa. É evidente, pela comparação entre essa fi- 
gura e a Figura 5.42(b), que o ringing foi reduzido na ram- 
pa com janelamento (as razões do pico ao vale nas figuras 
5.42(b) e (e) são 2,5 e 3,4, respectivamente). Por outro 
lado, como a largura do lóbulo central na Figura 5.42(e) 
é ligeiramente maior que na Figura 5.42(b), é esperado 
que retroprojeções baseadas na utilização de uma janela 
de Hamming apresentem menos ringing, mas sejam ligei- 
ramente mais borradas. Como mostra o Exemplo 5.19, 
isso é de fato o que acontece. 

Lembre-se da Equação 5.11-8, que G(w, 0) é a trans- 
formada de Fourier 1-D de g(p, 0), que é uma projeção 
única obtida em um ângulo fixo, 0. A Equação 5.11-16 
mostra que a imagem completa, retroprojetada f(x, y) é ob- 
tida como se segue: 

1. Calcule a transformada de Fourier 1-D de cada pro- 
jeção. 


2. Multiplique cada transformada de Fourier pela fun- 
ção filtro lwl, a qual, como explicamos anteriormente, 
foi multiplicada por uma janela apropriada (como, 
por exemplo, a janela de Hamming). 


3. Obtenha a transformada inversa de Fourier 1-D de 
cada transformada filtrada resultante. 


4. Integre (some) todas as transformadas inversas 1-D 
do passo 3. 


Como uma função filtro é utilizada, essa abordagem 
de reconstrução de imagem é apropriadamente chamada de 
retroprojeção filtrada. Na prática, os dados são discretos, 
de forma que todos os cálculos no domínio da frequên- 
cia são realizados utilizando um algoritmo FFT 1-D, e a 
filtragem é implementada utilizando o mesmo procedi- 
mento básico que explicamos no Capítulo 4 para funções 
2-D. Também é possível implementar a filtragem no do- 
mínio do espaço utilizando a convolução, como explica- 
remos mais adiante nesta seção. 


A discussão anterior abordou os aspectos de janela- 
mento de retroprojeções filtradas. Como ocorre com qual- 
quer sistema de dados amostrados, também precisamos 
levar em consideração as taxas de amostragem. Sabemos, 
com base no Capítulo 4, que a seleção das taxas de amos- 
tragem tem uma profunda influência sobre os resultados 
do processamento de imagens. Na presente discussão, 
temos duas considerações de amostragem. A primeira é 
o número de raios utilizados, o que determina o núme- 
ro de amostras em cada projeção. A segunda é o número 
de incrementos do ângulo de rotação, que determina o 
número de imagens reconstruídas (cuja soma resulta na 


imagem final). A subamostragem resulta em aliasing que, 
como vimos no Capítulo 4, pode se manifestar na forma 
de artefatos na imagem, como listras. Veremos as questões 
da amostragem na CT em mais detalhes na Seção 5.11.6. 


= 
Exemplo 5.19 Reconstrução de imagens utilizando 
retroprojeções filtradas. 


O foco deste exemplo é mostrar a reconstrução uti- 
lizando retroprojeções filtradas, primeiro com um filtro 
rampa e depois utilizando um filtro rampa modificado por 
uma janela de Hamming. Essas retroprojeções filtradas são 
comparadas com os resultados de retroprojeções “brutas” na 
Figura 5.40. Para nos concentrar na diferença devida ape- 
nas à filtragem, os resultados deste exemplo foram gerados 
com incrementos de rotação de 0,5º, que é o incremento 
que utilizamos para gerar a Figura 5.40. A separação entre 
os raios foi de um pixel nos dois casos. As imagens nos dois 
exemplos são de tamanho 600 x 600 pixels, de forma que o 
comprimento da diagonal é 2x 600=849. Em consequência, 
849 raios foram utilizados para cobrir toda a região quando 
o ângulo da rotação era de 45º e 135°. 


A Figura 5.43(a) mostra o retângulo reconstruído uti- 
lizando um filtro rampa. O aspecto mais notável desse resul- 
tado é a ausência de qualquer borramento visualmente de- 
tectável. Entretanto, como esperado, o ringing está presente, 
visível como linhas fracas, especialmente ao redor das bordas 
do retângulo. Essas linhas são mais visíveis no detalhe ampliado 
da Figura 5.43(c). A utilização da janela de Hamming no fil- 
tro rampa ajudou a minimizar consideravelmente o problema 
do ringing, à custa de um ligeiro borramento, com mostram 
as figuras 5.43(b) e (d). As melhorias (mesmo com o filtro 
rampa sem janelamento) em relação à Figura 5.40(a) são evi- 
dentes. A imagem do phantom não apresenta transições tão 
acentuadas e proeminentes quanto o retângulo, de forma que 
o ringing, mesmo com o filtro rampa sem janelamento, é im- 
perceptível no caso, como podemos ver na Figura 5.44(a). A 
utilização de uma janela de Hamming resultou em uma ima- 
gem ligeiramente mais suave, como mostra a Figura 5.44(b). 
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Figura 5.43  Retroprojeções filtradas do retângulo utilizando (a) um 
filtro rampa e (b) um filtro rampa com janelamento de Hamming. A 
segunda linha mostra detalhes ampliados das imagens da primeira 
linha. Compare com a Figura 5.40(a). 


Esses dois resultados representam melhorias consideráveis em 
relação à Figura 5.40(b), ilustrando mais uma vez a vantagem 
significativa inerente à técnica da retroprojeção filtrada. 


Na maioria das aplicações da CT (especialmente na 
medicina), artefatos como o ringing representam uma gran- 
de preocupação, de forma que esforços significativos são dedi- 
cados à sua minimização. O ajuste dos algoritmos de filtra- 
gem e, como explicamos na Seção 5.11.2, a utilização de um 
grande número de detectores estão entre as considerações de 
projeto que ajudam a reduzir esses efeitos. 

E 


A discussão mencionada se baseia na obtenção de re- 
troprojeções filtradas por meio da implementação de uma 


Figura 5.44 Retroprojecées filtradas de um phantom de cabeça utilizando (a) um filtro rampa e (b) um filtro rampa com janelamento de Ham- 


ming. Compare com a Figura 5.40(b). 
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FFT. No entanto, sabemos, com base no teorema da convo- 
lução apresentado no Capítulo 4, que resultados equiva- 
lentes podem ser obtidos utilizando a convolução espacial. 
Mais especificamente, observe que o termo entre colchetes 
na Equação 5.11-16 é a transformada inversa de Fourier 
do produto de duas funções no domínio da frequência 
que, de acordo com o teorema da convolução, sabemos ser 
igual à convolução das representações espaciais (transfor- 
madas inversas de Fourier) dessas duas funções. Em outras 
palavras, sendo s(p) a transformada inversa de Fourier de 
lvl”, escrevemos a Equação 5.11-16 como 


wasp 


0 


= f $(0)* ICP O) xcososy5eno do 


=[. fo 90,8)s(xcos 0+ ysend~p)dp|d0 


T lolGlw, Ae? do 


p=x cos0-+y sen p 


(5.11-18) 


na qual, como no Capítulo 4, “*” indica a convolução. A 
segunda linha resulta da primeira pelas razões explicadas 
no parágrafo anterior. A terceira linha resulta da defini- 
ção da convolução dada na Equação 4.2-20. 


As duas últimas linhas da Equação 5.11-18 dizem a 
mesma coisa: retroprojeções individuais em um ângulo po- 
dem ser obtidas pela convolução da projeção corresponden- 
te, g(p, 0), e a transformada inversa de Fourier do filtro ram- 
pa, s(p). Como antes, a imagem retroprojetada completa é 
obtida integrando (somando) todas as imagens retroproje- 
tadas individuais. Com exceção das diferenças de arredon- 
damento no cálculo, os resultados da utilização da convo- 
lução serão idênticos aos resultados utilizando a FFT. Em 
implementações práticas da CT, a convolução geralmente 
se mostra mais eficiente em termos computacionais, de for- 
ma que a maioria dos sistemas modernos de CT utiliza esse 
método. A transformada de Fourier de fato exerce um papel 
fundamental nas formulações teóricas e no desenvolvimen- 
to de algoritmos (por exemplo, o processamento de imagens 
por CT no Matlab se baseia na FFT). Além disso, notamos 
que não há necessidade de armazenar todas as imagens re- 
troprojetadas durante a reconstrução. Em vez disso, uma 
única soma é atualizada com a imagem retroprojetada mais 
recente. No final do procedimento, a soma será igual à soma 
total de todas as retroprojeções. 


Por fim, observamos que, como o filtro rampa (mes- 
mo com janelamento) zera o termo dc no dominio da fre- 


Se uma função de janelamento, como a janela de Hamming, for 
utilizada, então a transformada inversa de Fourier será realizada na 
rampa janelada. Além disso, podemos ignorar mais uma vez a ques- 
tão mencionada anteriormente sobre e a existência da transforma- 
da inversa de Fourier contínua porque todas as implementações são 
realizadas utilizando valores discretos de comprimento finito. 


quéncia, cada imagem de retroprojeção terá um valor médio 
zero (veja a Figura 4.30). Isso significa que cada imagem da 
retroprojeção terá pixels negativos e positivos. Quando to- 
das as retroprojeções são adicionadas para formar a imagem 
final, algumas posições negativas podem se tornar positivas, 
e o valor médio pode não ser zero, mas, normalmente, ain- 
da assim a imagem final terá pixels negativos. 


Há várias maneiras de solucionar esse problema. 
O método mais simples, quando não temos informações 
sobre quais deveriam ser os valores médios, é aceitar o fato 
de que valores negativos são inerentes ao método e ajustar 
o resultado utilizando o procedimento descrito nas equa- 
ções 2.6-10 e 2.6-11. Essa é a técnica que utilizamos nesta 
seção. Quando temos informações sobre qual deveria ser 
um valor médio “típico”, esse valor pode ser adicionado ao 
filtro no domínio da frequência, compensando, dessa for- 
ma, a rampa e impedindo que o termo dc seja zerado (veja 
a Figura 4.31 (c)). Ao trabalhar no domínio espacial com a 
convolução, o simples ato de truncar o comprimento do 
filtro espacial (transformada inversa de Fourier da rampa) 
o impede de ter um valor médio zero, assim, evitando o 
problema da zeragem totalmente. 


5.116 Reconstrução utilizando retroprojeções 
filtradas por feixes em formato de leque 


Até este ponto as discussões se concentraram em 
feixes paralelos. Em virtude de sua implementação sim- 
ples e intuitiva, essa é a geometria de aquisição de ima- 
gens normalmente utilizada para introduzir os conceitos 
de tomografia computadorizada. No entanto, sistemas 
modernos de CT utilizam uma geometria em formato de 
leque (veja a Figura 5.35), o tema da discussão para o 
restante desta seção. 


A Figura 5.45 mostra uma geometria básica de aqui- 
sição de imagens em formato de leque na qual os detecto- 
res são dispostos em um arco circular, e presume-se que 
os incrementos angulares da fonte sejam iguais. Seja p(a, 
b) uma projeção em formato de leque, na qual a é a po- 
sição angular de um detector particular mensurado em 
relação ao raio central, e 3 é o deslocamento angular da 
fonte, medido em relação ao eixo y, como mostra a figura. 
Também observamos na Figura 5.45 que um raio no feixe 
em leque pode ser representado como uma linha, L(p,6), 
na forma normal, que é a abordagem que utilizamos para 
representar um raio na geometria de aquisição de ima- 
gens de feixes paralelos, discutida nas seções anteriores. 
Isso nos permite utilizar resultados do feixe paralelo como 
o ponto de partida para deduzir as equações correspon- 
dentes para a geometria do feixe em formato de leque. 


L(p, 0) 


Raio central 


Figura 5.45 Geometria básica do feixe em formato de leque. A linha 
que passa pelo centro da fonte e da origem (que consideramos aqui 
como o centro da rotação da fonte) é chamada de raio central. 


Demonstraremos isso deduzindo a retroprojeção filtrada 
por feixe em formato de leque com base na convolução.” 


Começaremos observando na Figura 5.45 que os 
parâmetros da linha L(p,@) são relacionados aos parâme- 
tros de um raio de feixe em formato de leque por 


0=8+a (5.11-19) 


p=Dsena (5.11-20) 


sendo D a distância a partir do centro da fonte até a ori- 
gem do plano xy. 


A fórmula da retroprojeção por convolução para a 
geometria de aquisição de imagens por feixes paralelos 
é dada pela Equação 5.11-18. Sem perda de generalida- 
de, vamos supor que nossa atenção seja concentrada em 
objetos englobados em uma área circular de raio T em 
relação à origem do plano. Então, g(p,0) = 0 para lol> Te 
a Equação 5.11-18 passa a ser 


f(x,y) = sos cos 0-+ 


ysen0—p)dpdé (5.11-21) 

* O teorema da fatia de Fourier foi deduzido para uma geometria de 
feixes paralelos e não é diretamente aplicável a feixes em formato 
de leque. No entanto, as equações 5.11-19 e 5.11-20 fornecem a 
base para converter uma geometria de feixes em formato de leque 
em uma geometria de feixes paralelos, permitindo, dessa forma, a 
utilização da técnica de retroprojeção filtrada paralela, desenvolvida 
na seção anterior, para a qual o teorema da fatia pode ser aplicado. 
Discutiremos esse ponto em mais detalhes no final desta seção. 
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na qual utilizamos o fato explicado na Seção 5.11.1 de que 
projeções com 180º entre si são imagens espelhadas umas 
das outras. Dessa forma, fazemos com que os limites da 
integral externa na Equação 5.11-21 englobem um círculo 
completo, como requer um arranjo de feixes em formato 
de leque no qual os detectores são dispostos em um círculo. 


Nosso interesse é na integração em relação a a e p. 
Para isso, começamos alterando para coordenadas pola- 
res (1,9). Isto é, fazemos com que x = r cos pe y = r sen 
p, O que leva a 


xcos6+ysen@ =r cos pcos O + 


r sen y sen 0 = r cos(0 - p) (5.11-22) 


Utilizando esse resultado, podemos expressar a 
Equação 5.11-21 como 


Fle n=5 f [ 910.0)s{reost—2)— p]dp ad 


Essa expressão não passa da fórmula de reconstru- 
ção por feixes paralelos expressa em coordenadas pola- 
res. No entanto, a integração ainda se refere a pe 0. A in- 
tegração em relação a a e p requer uma transformação de 
coordenadas utilizando as equações 5.11-19 e 5.11-20: 


] p2r-a psen|(T/D) 
firey=s | f g(Dsen a,a+8) 
2 s ) 


—a en (-T/D 


s[rcos(B++-a—y)—Dsena]D cosa dadb 
(5.11-23) 


na qual utilizamos dp d0 = D cos a da dB (veja a explica- 
ção da Equação 5.11-13). 

Essa equação pode ser simplificada ainda mais. Em 
primeiro lugar, observe que os limites —a até 27 — a para 8 
incluem toda a extensão de 360º. Como todas as funções 
de 5 são periódicas, com período 27, os limites da integral 
externa podem ser substituídos por 0 e 27, respectivamen- 
te. O termo sen" (T/D) tem um valor máximo de a, cor- 
respondente a lpl > T, acima do qual g = 0 (veja a Figura 
5.46), de forma que substituímos os limites da integral por 
-a ea, respectivamente. Por fim, veja a linha L(p, 0) na 
Figura 5.45. Uma soma de raios de um feixe em formato 
de leque ao longo dessa linha deve ser igual à soma de 
raios de um feixe paralelo ao longo da mesma linha (uma 
soma de raios é uma soma de todos os valores ao longo de 
uma linha, de forma que o resultado deve ser o mesmo 
para um determinado raio, independentemente do siste- 
ma de coordenadas no qual ele é expresso). Isso se aplica 
a qualquer soma de raios para valores correspondentes de 
(a, 8) e (p, 0). Assim, sendo p(a, 5) uma projeção de feixe 
em formato de leque, segue-se que p(a, 3) = 9(p,0) e, a 
partir das equações 5.11-19 e 5.11-20, que p(a, 5) = 9(D 
sen a, a + 3). Incorporando essas observações à Equação 
5.11-23 resulta na expressão 
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Figura 5.46 Valor máximo de a necessário para englobar uma re- 
gião de interesse. 


fre [i reor 


a—y)—Dsena]Dcosadad3  (5.11-24) 


Essa é a fórmula fundamental da reconstrução por 
feixe em formato de leque baseada em retroprojeções fil- 
tradas. 

A Equação 5.11-24 pode ser ainda mais manipulada 
para ser expressa na fórmula de convolução, com a qual 
estamos mais familiarizados. Com referência à Figura 
5.47, pode ser demonstrado (Exercício 5.33) que 


rcos(3 +a- ọ) -D sen a = R sen (a — a) (5.11-25) 


na qual R é a distância a partir da fonte para um ponto 
arbitrário em um raio em formato de leque, e a’ é o ân- 
gulo entre esse raio e o raio central. Observe que Re a’ 
são determinados pelos valores de r, y e 5. Substituir a 
Equação 5.11-25 na Equação 5.11-24 resulta em 


teo fo fo pla, 3)s|Rsen(a'—a)| 


Dcosadad 58 (5.11-26) 
Pode ser demonstrado (Exercício 5.34) que 


2 


s(Rsena)= s(x) (5.11-27) 


Rsena 


Utilizando essa expressão, podemos escrever a Equa- 
ção 5.11-26 como 


if “ ala, B)h(a'—a)da 


Cm 


dB 
(5.11-28) 


reo- [ H 


sendo 


sla) (5.11-29) 


qla, 8) = pla, B)D cos a (5.11-30) 


Reconhecemos a integral interna na Equação 5.11-28 
como uma expressão de convolução, demonstrando, des- 
sa forma, que a fórmula de reconstrução da imagem na 
Equação 5.11-24 pode ser implementada como a convolu- 
ção das funções g(a, 8) e h(a). Diferentemente da fórmu- 
la de reconstrução para projeções paralelas, a reconstru- 
ção baseada em projeções por feixe em formato de leque 
envolve um termo 1/R?, que é um fator de ponderação 
inversamente proporcional à distância a partir da fonte. 
Os detalhes computacionais da implementação da Equação 
5.11-28 estão fora do escopo da presente análise (para uma 
explicação detalhada do assunto, veja Kak e Slaney (2001). 


Em vez de implementar diretamente a Equação 5.11- 
28, um método normalmente utilizado, particularmente 
em simulações computacionais é (1) converter uma geo- 
metria de feixe em formato de leque em uma geometria 
de feixes paralelos utilizando as equações 5.11-19 e 5.11- 
20, e (2) utilizar a abordagem de reconstrução por feixes 
paralelos desenvolvida na Seção 5.11.5. Concluímos esta 
seção com um exemplo de como isso é feito. Como obser- 
vamos anteriormente, uma projeção por feixe em forma- 
to de leque, p, realizada no ângulo p, tem uma projeção 
por feixes paralelos correspondente, g, realizada em um 
ângulo correspondente 0 e, portanto, 


Figura 5.47 Representação polar de um ponto arbitrário em um raio 
de um feixe em formato de leque. 


p(a, b) = g(p, 8) 
= g(Dsena, a + 5) (5.11-31) 
sendo que a segunda linha resulta das equações 5.11-19 
e 5.11-20. 


Seja AZ o incremento angular entre sucessivas pro- 
jeções do feixe em formato de leque e seja Aa o incremen- 
to angular entre os raios, o que determina o número de 
amostras em cada projeção. Impomos a restrição de que 


AB = Aa =" (5.11-32) 


Então, temos que 8 = my e a = my para alguns va- 
lores inteiros de m e n, e podemos escrever a Equação 
5.11-31 como 


p(ny, my) (5.11-33) 
Essa equação indica que o n-ésimo raio da m-ésima 
projeção radial é igual ao n-ésimo raio na (m + n)-ési- 
ma projeção paralela. O termo Dsen my no lado direito 
da Equação 5.11-33 implica que as projeções paralelas 
convertidas a partir de projeções de feixe em formato de 
leque não são amostradas uniformemente, o que pode 
levar a borramento e artefatos de aliasing e ringing se os 
intervalos de amostragem Aa e AQ forem grosseiros de- 
mais, como ilustra o exemplo a seguir. 


= 9[D sen ny, (m + n)y] 


= 

Exemplo 5.20 Reconstrução de imagem utilizando 
retroprojeções filtradas em formato de 
leque. 


A Figura 5.48(a) mostra os resultados de (1) gerar pro- 
jeções em formato de leque da imagem do retângulo com 


CEEE 
iin 


Figura 5.48 Reconstrução da imagem do retângulo a partir de retro- 
projeções filtradas em formato de leque. (a) Com incrementos de 1º de 
a e B. (b) Com incrementos de 0,5º. (c) Com incrementos de 0,25°. (d) 
Com incrementos de 0,125º. Compare (d) com a Figura 5.43(b). 


Restauração e reconstrução de imagens 253 


Aa = AS = 1°, (2) converter cada raio em formato de le- 
que no raio paralelo correspondente utilizando a Equação 
5.11-33 e (3) utilizar o método da retroprojeção filtrada de- 
senvolvido na Seção 5.11.5 para raios paralelos. As figuras 
5.48(b) a (d) mostram os resultados utilizando incrementos 
de 0,5º, 0,25º e 0,125º. Uma janela de Hamming foi utiliza- 
da em todos os casos. Essa variedade de incrementos angu- 
lares foi utilizada para ilustrar os efeitos da subamostragem. 


O resultado na Figura 5.48(a) é uma indicação clara de 
que incrementos de 1º são grosseiros demais, já que o bor- 
ramento e o ringing são bastante claros. O resultado em b é 
interessante por não se comparar bem com a Figura 5.43(b), 
que foi gerada utilizando o mesmo incremento angular de 
0,5º. De fato, como mostra a Figura 5.48(c), mesmo com in- 
crementos angulares de 0,25º, a reconstrução ainda não é 
tão boa quanto a da Figura 5.43(b). Precisamos utilizar in- 
crementos angulares da ordem de 0,125º antes de os dois 
resultados se tornarem comparáveis, como mostra a Figura 
5.48(d). Esse incremento angular resulta em projeções com 
180 x (1/0,25) = 720 amostras, que se aproxima dos 849 raios 
utilizados nas projeções paralelas do Exemplo 5.19. Dessa for- 
ma, não é de surpreender que os resultados sejam próximos 
em termos de aparência ao resultado utilizando Aa = 0,125º. 


Resultados similares foram obtidos com o phantom de 
cabeça, com exceção do fato de o aliasing ser muito mais vi- 
sível como interferência senoidal. Vemos na Figura 5.49(c) 
que mesmo com Aa = AG = 0,25 ainda vemos uma signifi- 
cativa distorção, especialmente na periferia da elipse. Como 
no caso do retângulo, utilizar incrementos de 0,125º final- 
mente produziu resultados comparáveis com a imagem re- 


Figura 5.49 Reconstrução da imagem do phantom de cabeça a partir de 
retroprojeções filtradas em formato de leque. (a) Com incrementos de 1º 


de a e 8. (b) Com incrementos de 0,5º. (c) Com incrementos de 0,25º. 
(d) Com incrementos de 0,125º. Compare (d) com a Figura 5.44(b). 
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troprojetada do phantom de cabeça da Figura 5.44(b). Esses 
resultados ilustram uma das principais razões pelas quais 
milhares de detectores precisam ser utilizados na geometria 
de feixe em formato de leque dos sistemas modernos de CT 
para reduzir os artefatos de aliasing. 

a 


Resumo 


Os resultados das técnicas de restauração apresenta- 
dos neste capítulo se baseiam na premissa de que a degra- 
dação de imagens pode ser modelada como um processo 
linear, invariante no espaço seguido por um ruído aditi- 
vo que não é correlacionado com os valores da imagem. 
Mesmo quando essas premissas não são totalmente váli- 
das, costuma ser possível obter resultados úteis utilizando 
os métodos desenvolvidos nas seções anteriores. 


Algumas das técnicas de restauração desenvolvidas 
neste capítulo se baseiam em vários critérios de otimi- 
zação. A utilização da palavra “ótima”, neste contexto, 
refere-se exclusivamente a um conceito matemático, 
não à resposta ótima do sistema visual humano. Na ver- 
dade, a falta de conhecimento atual sobre a percepção 
visual impossibilita uma formulação geral do problema 
de restauração de imagens que leve em consideração as 
preferências e a capacidade do observador. Diante dessas 
limitações, a vantagem dos conceitos apresentados neste 
capítulo é o desenvolvimento de técnicas fundamentais 
que tenham um comportamento razoavelmente previsí- 
vel e sustentadas por um conhecimento sólido. 


Como nos capítulos 3 e 4, algumas tarefas de res- 
tauração, como redução de ruído aleatório, são realizadas 
no domínio do espaço utilizando máscaras de convolução. 
O domínio da frequência foi considerado ideal para a redu- 
ção do ruído periódico e para o modelamento de algumas 
degradações importantes, como o borramento causado 
pelo movimento durante a aquisição da imagem. Também 
descobrimos que o domínio da frequência representa 
uma ferramenta útil para a formulação de filtros de res- 
tauração, como o filtro de Wiener e filtros por mínimos 
quadráticos com restrição. 


Como mencionamos no Capítulo 4, o domínio da 
frequência oferece uma base sólida e intuitiva para ex- 
perimentação. Quando uma técnica (filtro) apresenta um 
desempenho considerado satisfatório para uma dada apli- 
cação, a implementação normalmente é realizada pelo de- 
senvolvimento de um filtro digital que se aproxima da so- 
lução no domínio da frequência, mas que funciona muito 
mais rapidamente em um computador ou em um sis- 
tema de hardware/firmware dedicado, como sugerimos 
no final do Capítulo 4. 


Nossa análise da reconstrução de imagens a par- 
tir de projeções, apesar de introdutória, constitui as ba- 
ses para os aspectos de processamento de imagens des- 
sa área. Como observamos na Seção 5.11, a tomografia 
computadorizada (CT) é a principal área de aplicação da 
reconstrução de imagens a partir de projeções. Apesar 
de termos nos concentrado na tomografia por raios X, os 
princípios desenvolvidos na Seção 5.11 são aplicáveis a 
outras modalidades de aquisição de imagens de CT, como 
a SPECT (tomografia por emissão de fóton único), PET 
(tomografia por emissão de pósitrons), MRI (ressonância 
magnética) e algumas modalidades de aquisição de ima- 
gens por ultrassom. 


Referências e leituras complementares 


Para leituras adicionais sobre o modelo linear de 
degradação apresentado na Seção 5.1, veja Castleman 
(1996) e Pratt (1991). O livro de Peebles (1993) forne- 
ce uma análise em nível intermediário das funções de 
densidade de probabilidade de ruído e suas propriedades 
(Seção 5.2). O livro de Papoulis (1991) é mais avançado 
e analisa esses conceitos em mais detalhes. As referências 
sugeridas para a Seção 5.3 são Umbaugh (2005), Boie e 
Cox (1992), Hwang e Haddad (1995) e Wilburn (1998). 
Veja Eng e Ma (2001, 2006) sobre a filtragem adaptativa 
de mediana. A área geral do desenvolvimento de filtros 
adaptativos representa uma boa base para os filtros adap- 
tativos discutidos na Seção 5.3. O livro de Haykin (1996) 
apresenta uma boa introdução para esse tópico. Os filtros 
da Seção 5.4 são extensões diretas do material apresentado 
no Capítulo 4. Para leituras adicionais sobre o material da 
Seção 5.5, veja Rosenfeld e Kak (1982) e Pratt (1991). 


O tópico da estimativa da função de degradação 
(Seção 5.6) atualmente representa uma área de conside- 
rável interesse. Algumas das técnicas mais antigas para a 
estimativa da função de degradação são apresentadas em 
Andrews e Hunt (1977), Rosenfeld e Kak (1982), Bates 
e McDonnell (1986) e Stark (1987). Como a função de 
degradação raramente é conhecida com exatidão, várias 
técnicas foram propostas ao longo dos anos, nas quais 
aspectos específicos da restauração são enfatizados. Por 
exemplo, Geman e Reynolds (1992) e Hum e Jennison 
(1996) lidam com questões de preservação de transições 
de intensidade acentuada, em uma tentativa de enfatizar 
a nitidez, ao passo que Boyd e Meloche (1998) se concen- 
traram em restaurar objetos finos em imagens degrada- 
das. Exemplos de técnicas que lidam com o borramento de 
imagens são encontrados em Yitzhaky et al. (1998), Ha- 
rikumar e Bresler (1999), Mesarovic (2000) e Giannakis 


e Heath (2000). A restauração de sequências de imagens 
também é de considerável interesse. O livro de Kokaram 
(1998) fornece um bom fundamento nessa área. 


As técnicas de filtragem discutidas nas seções 5.7 
a 5.10 foram explicadas de várias formas ao longo dos 
anos em diversos livros e artigos sobre processamento de 
imagens. Duas importantes abordagens fundamentam o 
desenvolvimento desses filtros. Uma se baseia em uma 
formulação geral utilizando a teoria das matrizes, como 
apresentam Andrews e Hunt (1977). Essa abordagem 
é elegante e geral, mas difícil para iniciantes na área por 
não ser muito intuitiva. Técnicas baseadas diretamente na 
filtragem no domínio da frequência (a abordagem que 
utilizamos neste capítulo) normalmente são mais fáceis 
de acompanhar por pessoas não familiarizadas com a res- 
tauração, mas não apresentam o rigor matemático unifi- 
cador da abordagem matricial. As duas abordagens che- 
gam aos mesmos resultados, mas nossa experiência no 
ensino desse material em variados contextos indica que 
os alunos que entram na área pela primeira vez favore- 
cem a última abordagem. Sugerimos as seguintes leitu- 
ras complementares para nossa análise dos conceitos de 
filtragem apresentados nas seções 5.7 a 5.10: Castleman 
(1996), Umbaugh (2005) e Petrou e Bosdogianni (1999). 
Esta última referência também apresenta uma boa relação 
entre filtros bidimensionais no domínio da frequência e 
os filtros digitais correspondentes. Sobre o design dos fil- 
tros digitais 2-D, veja Lu e Antoniou (1992). 


Para referências básicas sobre a tomografia compu- 
tadorizada, veja Rosenfeld e Kak (1982), Kak e Slaney 
(2001) e Prince e Links (2006). Para saber mais sobre o 
phantom de Shepp-Logan, veja Shepp e Logan (1974) e, 
para mais detalhes sobre a origem do filtro de Ram-Lak, 
veja Ramachandran e Lakshminarayanan (1971). O arti 
go de O'Connor e Fessler (2006) constitui um bom exemplo 
das pesquisas atuais sobre os aspectos de processamento de 
imagens e sinais para a tomografia computadorizada. 


Para técnicas computacionais de implementação 
da maior parte do material discutido neste capítulo, veja 
Gonzalez, Woods e Eddins (2004). 


Exercícios” 


5.1 As barras brancas no padrão de teste mostrado têm 7 
pixels de largura e 210 pixels de altura. A separação 
entre as barras tem 17 pixels. Qual seria o aspecto da 
imagem após a aplicação de 


Soluções detalhadas dos exercícios marcados com astgerisco po- 
dem ser encontrados no site do livro. O site também possui pro- 
jetos sugeridos com base no conteúdo deste capítulo. 


5.2 


*5.3 


5.4 


*5.5 


5.6 
*5.7 
5.8 
*5.9 


5.10 
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(a) Um filtro de média aritmética 3 x 3? 
(b) Um filtro de média aritmética 7 x 7? 
(c) Um filtro de média aritmética 9 x 9? 


Observação: este exercício e os próximos, relativos à 
filtragem dessa imagem, podem parecer um pouco te- 
diosos. No entanto, vale a pena solucioná-los, já que 
ajudam a desenvolver uma boa compreensão do fun- 
cionamento desses filtros. Depois que você entender 
como um filtro particular afeta a imagem, sua resposta 
pode ser uma breve descrição verbal do resultado. Por 
exemplo, “a imagem resultante consistirá em barras 
verticais com 3 pixels de largura e 206 pixels de altura”. 
Certifique-se de descrever quaisquer deformações das 
barras, como cantos arredondados. Você pode ignorar 
os efeitos no contorno da imagem, no qual as máscaras 
só conterão parcialmente os pixels da imagem. 


Repita o Exercício 5.1 utilizando um filtro de média 
geométrica. 


Repita o Exercício 5.1 utilizando um filtro de média 
harmônica. 


Repita o Exercício 5.1 utilizando um filtro de média 
contra-harmônica com Q= 1. 


Repita o Exercício 5.1 utilizando um filtro de média 
contra-harmônica com Q =-1. 


Repita o Exercício 5.1 utilizando um filtro de mediana. 
Repita o Exercício 5.1 utilizando um filtro de máximo. 
Repita o Exercício 5.1 utilizando um filtro de mínimo. 


Repita o Exercício 5.1 utilizando um filtro de ponto 
médio. 

As duas subimagens mostradas foram extraídas dos cantos 
superiores direitos das figuras 5.7(c) e (d), respectivamen- 
te. Dessa forma, a subimagem à esquerda é o resultado 
da utilização de um filtro de média aritmética de tama- 
nho 3 x 3; a outra subimagem é o resultado da utilização 
de um filtro de média geométrica de mesmo tamanho. 


*(a) Explique por que a subimagem obtida com a filtra- 
gem de média geométrica é menos borrada. (Dica: 
comece sua análise examinando uma transição de 
intensidade 1-D.) 


(b) Explique por que os componentes pretos na ima- 
gem à direita são mais grossos. 
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5.11 Reveja o filtro contra-harmônico determinado na Equa- 
ção 5.3-6. 
(a) Explique por que o filtro é eficaz na eliminação do 
ruído de pimenta quando Q é positivo. 
(b) Explique por que o filtro é eficaz na eliminação do 
ruído de sal quando Q é negativo. 


(c) Explique por que o filtro apresenta resultados insatis- 
fatórios (como os resultados mostrados na Figura 5.9) 
quando a polaridade errada é escolhida para Q. 


(d) Discuta o comportamento do filtro quando Q=-1. 


(e) Discuta (para Q positivo e negativo) o comporta- 
mento do filtro em áreas de níveis de intensidade 
constantes. 


*5.12 Obtenha as equações para os filtros passa-banda cor- 
respondentes aos filtros rejeita-banda da Tabela 4.6. 


5.13 Obtenha as equações para filtros rejeita-notch gaussia- 
no e ideal na forma da Equação 4.10-5. 


*5.14 Demonstre que a transformada de Fourier da função 
seno contínua 2-D 


f(x,y) =A sen(ux + Vy) 


é o par de impulsos conjugados 


.A u v 
F(u,v)=—j —|6|u-—- ,v-— 
2 27 27 

u v 

ôl u+ —,v+— 

27 27 


(Dica: utilize a versão contínua da transformada de 
Fourier da Equação 4.5-7 e escreva o seno em termos 
de exponenciais.) 


5.15 Partindo da Equação 5.4-11, deduza a Equação 5.4-13. 


*5.16 Considere um sistema linear de degradação de ima- 
gens, invariante no espaço, com resposta ao impulso 


h(x = a,y = B) = gia Hy-BY] 


Suponha que a entrada desse sistema seja uma ima- 
gem que consiste de uma linha de largura infinite- 
simal posicionada em x = a e modelada por f(x, y) = 
ó(x— a), sendo ô um impulso. Considerando a ausência 
de ruído, qual é a imagem de saída g(x, y)? 

5.17 Durante a aquisição, uma imagem é submetida a um 
movimento uniforme linear na direção vertical duran- 
te o intervalo de tempo T,. A direção do movimento 


então passa para a direção horizontal por um inter- 
valo de tempo T,. Considerando que o tempo que a 
imagem leva para mudar de direção é desprezível e 
que os tempos de abertura e fechamento do obturador 
também são desprezíveis, obtenha a expressão para a 
função de borramento, H(u, v). 


*5.18 Considere o problema do borramento de imagem cau- 
sado pela aceleração uniforme na direção x. Se a ima- 
gem estiver em estado estacionário no momento t = 
0 e acelerar com aceleração uniforme x (t) = a??/2 por 
um tempo T, obtenha a função de borramento H(u, 
v). Você pode considerar que os tempos de abertura e 
fechamento do obturador são desprezíveis. 


5.19 Uma sonda espacial foi projetada para transmitir ima- 
gens de um planeta à medida que ela se aproxima para 
o pouso. Durante os estágios finais do pouso, um dos 
motores de controle falha, resultando em rápida rota- 
ção da sonda ao redor de seu eixo vertical. As imagens 
enviadas durante os dois últimos segundos antes do 
pouso são borradas em consequência desse movimen- 
to circular. A câmera se localiza na parte de baixo da 
sonda, ao longo de seu eixo vertical, e aponta para 
baixo. Felizmente, a rotação da sonda também ocorre 
ao redor de seu eixo vertical, de forma que as imagens 
são borradas por um movimento rotativo uniforme. 
Durante o tempo de aquisição de cada imagem, a ro- 
tação da sonda foi limitada a 7/8 radianos. O processo 
de aquisição de imagem pode ser modelado como um 
obturador ideal que só é aberto durante o tempo em 
que a sonda era rotacionada nos 7/8 radianos. Você 
pode considerar que o movimento vertical foi despre- 
zível durante a aquisição das imagens. Formule uma 
solução para restaurar as imagens. 


*5.20 A imagem mostrada é uma projeção 2-D borrada de 
uma representação volumétrica de um coração. Sa- 
be-se que cada um dos marcadores com sinal de “+” 
na parte inferior direita da imagem tinha 3 pixels de 
largura, 30 pixels de comprimento e um valor de in- 
tensidade de 255 antes do borramento. Desenvolva 
um procedimento passo a passo indicando como você 
utilizaria as informações apresentadas anteriormente 
para obter a função de borramento H(u, v). 


(Imagem original: cortesia da G.E. Medical Systems.) 


5.21 Uma determinada geometria de aquisição de imagens 
por raios X produz uma degradação de borramento que 
pode ser formulada como a convolução da imagem per- 
cebida com a função espacial, circularmente simétrica 

e: 


2 2 zs 
x + 20° ++ 
nx, y) == 0. e >” 


Considerando variáveis contínuas, mostre que a degra- 
dação no domínio da frequência é determinada pela 
expressão 


2 Di EF. 
H(u,v) = -8r (u + v2)e 2"? +°) 


(Dica: veja a Seção 4.9.4, item 13 da Tabela 4.3 e o 
Exercício 4.26.) 


*5.22 Utilizando a função de transferência do Exercício 5.21, 
deduza a expressão para um filtro de Wiener, conside- 
rando que a razão dos espectros de potência do ruído 
e do sinal não degradado seja uma constante. 


5.23 Utilizando a função de transferência do Exercício 5.21, 
deduza a expressão resultante para o filtro por míni- 
mos quadráticos com restrição. 

5.24 Considere que o modelo da Figura 5.1 seja linear e 
invariante no espaço e que o ruído e a imagem não 
sejam correlacionados. Demonstre que o espectro de 
potência da saída é 


|G(u, v)? = |A(u, v)PlF(u, v)P + |N(u, v)P 
Veja as equações 5.5-17 e 4.6-18. 


5.25 Cannon (1974) sugeriu um filtro de restauração R(u, 
v) satisfazendo a condição 
A j 


F(u,v) 


= |R(u,v)| eu vi 

e, com base na premissa de forçar o espectro de po- 
tência da imagem restaurada, |F(u, v), para se igualar 
ao espectro de potência da imagem original, |F(u, v)P. 
Considere que a imagem e o ruído não sejam corre- 
lacionados. 


*(a) Calcule R(u, v) em termos de IF(u, v)P, IH(u, v)P e 
IN(u, v)P. (Dica: veja a Figura 5.1, a Equação 5.5-17 
e o Exercício 5.24.) 
(b) Utilize seu resultado em (a) para expressar o resul- 
tado na forma da Equação 5.8-2. 


5.26 Um astrônomo trabalhando com um telescópio de gran- 
de escala observa que as imagens estão um pouco borra- 
das. O fabricante informa ao astrônomo que a unidade 
está funcionando de acordo com as especificações. As 
lentes do telescópio focam imagens em um arranjo CCD 
de alta resolução e as imagens são, então, convertidas pe- 
los componentes eletrônicos do telescópio em imagens 
digitais. Não é possível tentar melhorar a situação con- 
duzindo experimentos controlados de laboratório com 
as lentes e os sensores de aquisição de imagens em razão 
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do tamanho e peso dos componentes do telescópio. O 
astrônomo, tendo ouvido falar de seu sucesso como um 
especialista em processamento de imagens, entra em 
contato com você para ajudá-lo a formular uma solução 
de processamento digital de imagens para aumentar um 
pouco mais a nitidez das imagens. Como você solucio- 
naria o problema, considerando que as únicas imagens 
que você pode obter são imagens de corpos celestes? 


*5,27 Um professor de arqueologia, pesquisando sobre práticas 
de câmbio monetário durante o Império Romano, desco- 
briu recentemente que quatro moedas romanas funda- 
mentais para sua pesquisa pertencem ao Museu Britânico 
de Londres. Infelizmente, chegando ao museu, ele foi in- 
formado de que as moedas foram roubadas. Ele descobriu 
que o museu tem fotografias de todos os itens do acervo. 
Infelizmente, as fotos das moedas em questão estão bor- 
radas, de forma que a data e outras pequenas marcações 
não são legíveis. A causa do borramento foi o fato de a 
câmera estar fora de foco quando as fotos foram tiradas. 
Por ser um especialista em processamento de imagens e 
amigo do professor, você é solicitado a decidir se o proces- 
samento computacional pode ser utilizado para restaurar 
as imagens para que o professor consiga ler as marcações. 
Você é informado de que a câmera original utilizada para 
tirar as fotos ainda está disponível, bem como outras mo- 
edas representativas da mesma época. Proponha uma so- 
lução passo a passo para esse problema. 


5.28 Esboce a transformada de Radon das imagens quadradas 
a seguir. Indique quantitativamente todos os aspectos im- 
portantes de seus esboços. A figura (a) consiste em um 
ponto no centro e (b) apresenta dois pontos ao longo da 
diagonal. Descreva sua solução para (c) por um perfil de 
intensidade. Considere uma geometria de feixes paralelos. 


(c) 


5.29 Demonstre que a transformada de Radon (Equacao 5.11-3) 


do formato gaussiano f(x,y)= Aexp(-x” —y”) é 
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9(p,0)= Avr exp(—p*). (Dica: consulte o Exemplo 
5.17, no qual utilizamos a simetria para simplificar a 
integração.) 

5.30*(a) Mostre que a transformada de Radon (Equação 
5.11-3) do impulso unitário ó(x, y) é uma linha 
reta vertical no plano passando pela origem. 

(b) Mostre que a transformada de Radon do impulso 
(X — Xy Y — Y,) é uma curva senoidal no plano p9. 
5.31 Prove a validade das seguintes propriedades da trans- 
formada de Radon (Equação 5.11-3): 
*(a) Linearidade: a transformada de Radon é um ope- 
rador linear. (Veja a Seção 2.6.2, para a definição 
de operadores lineares.) 


(b) Propriedade de translação: a transformada de Ra- 
don de flx-x, Y — Y) é 9(p — x,cos, — Y SEN y 0). 


*(c) Propriedade de convolução: mostre que a trans- 
formada de Radon da convolução de duas funções 
é igual à convolução das transformadas de Radon 
das duas funções. 


5.32 Deduza os passos que levam da Equação 5.11-14 a 
5.11-15. Você precisará utilizar a propriedade G(w, 0 + 
180°) = G(-w, 0). 


*5.33 Prove a validade da Equação 5.11-25. 
5.34 Prove a validade da Equação 5.11-27. 


Processamento de imagens 
coloridas 


Apenas após anos de preparação é que o jovem artista deveria tocar a cor — não 
a cor utilizada de forma descritiva, mas como uma forma de expressão pessoal. 
Henri Matisse 


Capítulo 


Por muito tempo eu me limitei a uma cor — como uma forma de disciplina. 
Pablo Picasso 


Apresentação 


A utilização da cor no processamento de imagens é motivada por dois fatores principais. Para começar, a cor 
é um poderoso descritor que muitas vezes simplifica a identificação do objeto e sua extração de uma cena. 
Em segundo lugar, os seres humanos são capazes de discernir milhares de tons e intensidades de cor, em 
comparação com apenas duas dúzias de tons de cinza. Esse segundo fator é particularmente importante na 
análise manual (isto é, realizada por seres humanos) de imagens. 


O processamento de imagens coloridas é dividido em duas áreas principais: processamento de imagens coloridas 
e pseudocores. Na primeira categoria, as imagens em questão normalmente são adquiridas com um sensor de 
cores reais, como uma TV em cores ou um digitalizador colorido. Na segunda categoria, o problema consiste 
na atribuição de uma cor a uma intensidade monocromática específica, ou a uma faixa de intensidades. 
Até recentemente, a maior parte do processamento digital de imagens coloridas era realizada no nível das 
pseudocores. Contudo, na última década, sensores coloridos e hardwares para o processamento de imagens 
coloridas foram disponibilizados a preços razoáveis. O resultado disso são técnicas de processamento de 
imagens em cores reais atualmente utilizadas em uma ampla variedade de aplicações, incluindo a indústria 
gráfica, visualização e a Internet. 


Ficará claro, nas discussões a seguir, que alguns métodos de processamento empregados em imagens em es- 
cala de cinza que analisamos nos capítulos anteriores são diretamente aplicáveis a imagens coloridas. Outros 
métodos requerem reformulação para serem compatíveis com as propriedades dos espaços de cores desen- 
volvidos neste capítulo. As técnicas que descrevemos aqui são apenas introdutórias e ilustram a variedade 
de métodos disponíveis para o processamento de imagens coloridas. 


6.1 Fundamentos das cores 


Apesar de o processo seguido pelo cérebro humano 
na percepção e interpretação das cores constituir-se em 
um fenômeno fisiopsicológico ainda não plenamente com- 
preendido, a natureza física da cor pode ser formalmente 
expressa com base em resultados experimentais e teóricos. 


Em 1666, Sir Isaac Newton descobriu que, quando 
um feixe de luz solar atravessa um prisma de vidro, o 


feixe de luz emergente não é branco, mas, pelo contrá- 
rio, consiste em um espectro contínuo de cores variando 
de violeta, em uma extremidade, a vermelho, na outra. 
Como apresentado na Figura 6.1, o espectro de cores 
pode ser dividido em seis amplas regiões: violeta, azul, 
verde, amarelo, laranja e vermelho. Quando visto em 
cores reais (Figura 6.2), nenhuma cor do espectro ter- 
mina abruptamente, pois cada cor se funde suavemente 
à próxima. 
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Figura 6.1 
Business Division.) 


Basicamente, as cores percebidas pelos humanos 
e outros animais em um objeto são determinadas pela 
natureza da luz refletida pelo objeto. Como ilustrado na 
Figura 6.2, a luz visível é composta de uma banda de fre- 
quências relativamente estreita no espectro de energia 
eletromagnética. Um corpo que reflete a luz de forma 
balanceada em todos os comprimentos de onda visíveis 
é percebido como branco pelo observador. No entanto, 
um corpo que favoreça a refletância em uma faixa limi- 
tada do espectro visível exibe alguns tons de cores. Por 
exemplo, objetos verdes refletem a luz com comprimen- 
tos de onda primariamente no intervalo de 500 a 570 nm 
enquanto absorvem a maior parte da energia de outros 
comprimentos de onda. 


A caracterização da luz é fundamental para a ciên- 
cia das cores. Se a luz for acromática (sem cores), seu 
único atributo será sua intensidade, ou quantidade. A luz 
acromática é aquela que se vê em um aparelho de televi- 
são preto e branco, e tem sido um componente implícito 
da nossa discussão sobre processamento de imagens até 
agora. Como definimos no Capítulo 2, e utilizamos várias 
vezes desde então, o termo nível de cinza se refere a uma 
medida escalar de intensidade que varia do preto, passan- 
do pelos cinza, até o branco. 


A luz cromática engloba o espectro de energia ele- 
tromagnética de aproximadamente 400 a 700 nm. Três 
valores básicos são utilizados para descrever a qualidade 
de uma fonte de luz cromática: radiância, luminância e 


Espectro de cores visto pela passagem de luz branca através de um prisma. (Imagem original: cortesia da General Electric Co., Lamp 


brilho. A radiância é a quantidade total de energia que 
flui da fonte de luz normalmente e é medida em wat- 
ts (W). A luminância, medida em lumens (Im), mede a 
quantidade de energia que um observador percebe de uma 
fonte de luz. Por exemplo, a luz emitida de uma fonte 
operando na região do infravermelho distante poderia ter 
uma energia significativa (radiância), mas um observa- 
dor dificilmente a perceberia; sua luminancia seria quase 
zero. Por fim, o brilho é um descritor subjetivo, pratica- 
mente impossível de ser medido. Ele incorpora a noção 
acromática de intensidade e é um dos principais fatores 
na descrição da sensação de cores. 


Como observamos na Seção 2.1.1, os cones são 
os sensores dos olhos responsáveis pela visão das cores. 
Evidências experimentais detalhadas comprovaram que 
todos os cones do olho humano (6 a 7 milhões) podem 
ser divididos em três principais categorias de sensoria- 
mento, aproximadamente correspondentes ao vermelho, 
ao verde e ao azul. Dentre todos os cones existentes no 
sistema visual humano, 65% são sensíveis à luz verme- 
lha, 33% são sensíveis à luz verde e aproximadamente 
2% deles são sensíveis ao azul (mas os cones azuis são 
os mais sensíveis). Na Figura 6.3, são apresentadas curvas 
experimentais médias detalhando a absorção da luz pelos 
cones vermelho, verde e azul do olho humano. Em vir- 
tude dessas características de absorção do olho humano, 
as cores são vistas como combinações das chamadas cores 
primárias: vermelho (R, de red), verde (G, de green) e azul 


sos 700 1900 


COMPRIMENTO DE ONDA (MANOMETROS) 


Figura 6.2 Comprimentos de onda englobando a faixa visível do espectro eletromagnético. (Imagem original: cortesia da General Electric Co., 


Lamp Business Division.) 
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Figura 6.3 Absorção da luz pelos cones vermelho, verde e azul no olho humano como uma função do comprimento de onda. 


(B, de blue). Para fins de padronização, a CIE (Commis- 
sion Internationale de I'Eclairage — Comissão Interna- 
cional de Iluminação) determinou em 1931 os seguintes 
valores específicos como comprimentos de onda das três 
cores primárias: azul = 435,8 nm, verde = 546,1 nm e ver- 
melho = 700 nm. Esse padrão foi definido antes de as cur- 
vas experimentais apresentadas na Figura 6.3 terem sido 
descobertas em 1965. Dessa forma, os padrões da CIE cor- 
respondem, aproximadamente, aos dados experimentais. 
Observamos, nas figuras 6.2 e 6.3, que nenhuma cor pode 
ser chamada isoladamente de vermelho, verde ou azul. 
Além disso, é importante ter em mente que três compri- 
mentos de onda específicos para as cores primárias para 
fins de padronização não significa que esses três compo- 
nentes RGB fixos, atuando sozinhos, possam gerar todo 
o espectro de cores. A utilização da palavra primário tem 
sido amplamente mal-interpretada, levando a crer que os 
três padrões primários, quando misturados em diversas 
proporções de intensidade, podem produzir todas as cores 
visíveis. Como veremos em breve, essa interpretação não 
é correta, a não ser que o comprimento de onda também 
possa ser variado, caso em que deixaremos de ter como 
padrão três cores primárias fixas. 


As cores primárias podem ser adicionadas para pro- 
duzir as cores secundárias — magenta (vermelho mais 
azul), ciano (verde mais azul) e amarelo (vermelho mais ver- 
de). Misturar as três cores primárias, ou uma secundária 
com sua cor primária oposta, em intensidades corretas, 
produz a luz branca. Esse resultado pode ser visto na Fi- 


gura 6.4(a), que também ilustra as três cores primárias 
e suas combinações para produzir as cores secundárias. 

É importante fazer a distinção entre as cores primá- 
rias de luz e as cores primárias de pigmentos ou coran- 
tes. No último caso, uma cor primária é definida como 


MISTURAS DE LUZ 


tPrimárias aditivas) 


MISTURAS DE 


PIGMENTOS 


(Primários vabstratives 


CORES PRIMÁRIAS E SECUNDARIAS 
DE LUZ E PIGMENTOS 


Figura 6.4 Cores primárias e secundárias de luz e pigmentos. (Ima- 
gem original: cortesia da General Electric Co., Lamp Business Division.) 
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uma cor que subtrai ou absorve uma cor primária de luz 
e reflete ou transmite as outras duas. Dessa forma, as 
cores primárias de pigmentos são o magenta, o ciano e o 
amarelo, e as cores secundárias são o vermelho, o verde 
e o azul. Essas cores são apresentadas na Figura 6.4 (b). 
Uma mistura adequada das três cores primárias de pig- 
mentos, ou uma secundária com sua primária oposta, 
produz o preto. 


A recepção da televisão em cores é um exemplo 
da natureza aditiva das cores da luz. O interior de um, 
tubo de raios catódicos (CRT, de cathode ray tube) de uma 
tela de TV colorida é composto de um grande arranjo de 
padrões triangulares de pontos de material fluorescente 
sensível aos elétrons. Quando excitado, cada ponto do 
padrão triangular produz luz em uma das cores primá- 
rias. A intensidade dos pontos de material fluorescente 
que emite o vermelho é modulada por um canhão de 
elétrons dentro do tubo, que gera pulsos correspondentes 
à “energia vermelha” capturada pela câmera de TV. Os 
pontos verdes e azuis do padrão triangular são modula- 
dos da mesma forma. O efeito, visto no receptor de televi- 
são, é que as três cores primárias de cada padrão triangu- 
lar de pontos de material fluorescente são “adicionadas” 
e recebidas pelos cones dos olhos sensíveis às cores como 
uma imagem colorida. Trinta mudanças de imagens su- 
cessivas por segundo em todas as três cores completam a 
ilusão da exibição de imagem contínua na tela. 


Os monitores CRT estão sendo substituídos por tecno- 
logias digitais de “tela plana”, como monitores de cristal 
líquido (LCDs, de liquid crystal display) e monitores de 
plasma. Apesar de serem fundamentalmente diferentes 
dos tubos de raios catódicos, essas e outras tecnologias 
similares utilizam o mesmo princípio no sentido em que 
todas requerem três subpixels (vermelho, verde e azul) 
para gerar um único pixel colorido. Os LCDs utilizam 
propriedades de luz polarizada para bloquear ou ‘passar’ 
a luz através da tela de LCD e, no caso da tecnologia 
de monitor de matriz ativa, transistores de película fina 
(TFTs, de thin film transistor) são utilizados para emitir os 
sinais adequados para lidar com cada pixel na tela. Fil- 
tros de luz são utilizados para produzir as três cores pri- 
márias de luz em cada padrão triangular de pixels. Nas 
unidades de plasma, os pixels são minúsculas células de 
gel cobertas com material fluorescente para produzir 
uma das três cores primárias. As células individuais são 
tratadas de modo análogo aos LCDs. A capacidade de 
coordenação desse padrão triangular individual de pixels 
constitui os fundamentos dos monitores digitais. 


As características geralmente utilizadas para distin- 
guir uma cor da outra são brilho, matiz e saturação. Como 
já afirmamos nesta seção, o brilho incorpora a noção 
acromática da intensidade. Matiz é um atributo associado 
ao comprimento de onda dominante em uma mistura de 
ondas de luz. Assim, o matiz representa a cor dominante 
percebida por um observador. Dessa forma, quando di- 
zemos que um objeto é vermelho, laranja ou amarelo, 
estamos nos referindo ao seu matiz. A saturação se refere 
à pureza relativa ou à quantidade de luz branca mistura- 
da a um matiz. As cores puras do espectro são totalmente 
saturadas. Cores como o rosa (vermelho e branco) e o li- 
lás (violeta e branco) são menos saturadas, com o grau de 
saturação sendo inversamente proporcional à quantidade 
de luz branca adicionada. 


O matiz e a saturação juntos são chamados de cro- 
maticidade e, dessa forma, uma cor pode ser caracterizada 
por seu brilho e sua cromaticidade. As quantidades de 
vermelho, verde e azul necessárias para formar qualquer 
cor em particular são chamadas de valores de triestímulo 
e expressas como X, Y e Z, respectivamente. Uma cor é, 
então, especificada por seus coeficientes tricromáticos, defi- 
nidos como: 


X 
x =——___ (6.1-1) 
KATE 
a a (6.1-2 
YS X4Y42Z i, 
E 
Z 
z=—— (6.1-3) 
XYZ 


Observamos, a partir dessas equações, que” 
x+y+z=1 


Para qualquer comprimento de onda de luz no es- 
pectro visível, os valores de triestímulo necessários para 
produzir a cor correspondente a esse comprimento de 
onda podem ser obtidos diretamente das curvas ou ta- 
belas que foram compiladas a partir de abrangentes re- 
sultados experimentais [Poynton (1996); veja também 
referências de Walsh (1958) e Kiver (1965)]. 


Outra metodologia utilizada para especificar as cores é 
o diagrama de cromaticidade da CIE (Figura 6.5), que mostra 
a composição de cores como uma função de x (vermelho) 


A utilização de x, y, z neste contexto segue a convenção notacio- 
nal. Ela não deve ser confundida com a utilização de (x, y) para 
expressar coordenadas espaciais em outras seções do livro. 
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DIAGRAMA DE CROMATICIDADE DA CIE 


LOCUS DE ENERGIA ESPECTRAL 
(COMPRIMENTO DE ONDA, 
NANOMETROS) 


Figura 6.5 Diagrama de cromaticidade. (Imagem original: cortesia da General Electric Co., Lamp Business Division.) 


e y (verde). Para qualquer valor de x e y, o valor corres- 
pondente de z (azul) é calculado a partir da Equação 6.1-4, 
observando-se que z = 1 — (x + y). O ponto marcado em 
verde na Figura 6.5, por exemplo, tem aproximadamente 
62% de verde e 25% de vermelho. A partir da Equação 
6.1-4, sabemos que a composição de azul é de aproxima- 
damente 13%. 


As posições das várias cores no espectro — do vio- 
leta com 380 nm ao vermelho com 780 nm — são indi- 
cadas ao redor da fronteira do diagrama de cromaticidade 
em formato de língua. Essas são as cores puras mostradas 
no espectro da Figura 6.2. Qualquer ponto que não se 
posicione na fronteira, mas, sim, dentro do diagrama, re- 
presenta alguma mistura das cores do espectro. O ponto 
de igual energia mostrado na Figura 6.5 corresponde a 
frações iguais das três cores primárias; ele representa o 
padrão da CIE para a luz branca. Qualquer ponto locali- 
zado na fronteira do gráfico de cromaticidade é comple- 


tamente saturado. À medida que um ponto deixa a fron- 
teira e se aproxima do ponto de energia igual, mais luz 
branca é adicionada à cor, tornando-se menos saturado. 
A saturação no ponto de igual energia é zero. 


O diagrama de cromaticidade é útil para a mistura 
de cores porque um segmento de reta ligando dois pon- 
tos quaisquer do diagrama determina todas as diferentes 
cores que podem ser obtidas por meio da combinação 
aditiva dessas duas cores. Considere, por exemplo, um 
segmento de reta ligando os pontos vermelho e verde 
mostrados na Figura 6.5. Se houver mais luz vermelha 
do que luz verde, o ponto exato representando a nova cor 
se localizará no segmento de reta, mas estará mais próxi- 
mo do ponto vermelho do que do ponto verde. De forma 
similar, um segmento de reta que ligue o ponto de igual 
energia a qualquer ponto na fronteira do gráfico definirá 
todas as tonalidades daquela particular cor do espectro. 
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A extensão desse procedimento às três cores é di- 
reta. Para definir a escala de cores que pode ser obtida 
a partir de três cores quaisquer no diagrama de croma- 
ticidade, simplesmente traçamos segmentos de retas co- 
nectando cada um dos três pontos de cor. O resultado é 
um triângulo, e qualquer cor na fronteira ou dentro do 
triângulo pode ser produzida a partir de combinações das 
três cores iniciais. Um triângulo com vértices em quais- 
quer três cores fixas não pode delimitar toda a região de 
cores da Figura 6.5. Essa observação está graficamente de 
acordo com a afirmação feita anteriormente de que nem 
todas as cores podem ser obtidas a partir de apenas três 
cores primárias fixas. 


O triângulo da Figura 6.6 mostra uma faixa típica de 
cores (chamada de gama de cores) reproduzida por moni- 
tores RGB. A região irregular dentro do triângulo repre- 
senta a gama de cores reproduzidas pelos atuais disposi- 
tivos de impressão colorida de alta qualidade. A fronteira 
da gama de cores de impressão é irregular porque a im- 
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pressão colorida é a combinação de uma mistura aditiva 
e subtrativa de cores, um processo muito mais difícil de 
controlar do que a exibição de cores em um monitor, que 
se baseia na adição de três primárias de luz controláveis. 


6.2 Modelos de cores 


O objetivo de um modelo de cores (também cha- 
mado de espaço de cores ou sistema de cores) é facilitar a es- 
pecificação das cores em alguma forma padronizada, am- 
plamente aceita. Essencialmente, um modelo de cores é 
uma especificação de um sistema de coordenadas e um 
subespaço dentro desse sistema no qual cada cor é repre- 
sentada por um único ponto. 


A maioria dos modelos de cores utilizados atual- 
mente é orientada ou em direção ao hardware (como 
no caso de monitores e impressoras coloridas) ou em 
direção a aplicações envolvendo a manipulação de cores 
(como a criação de imagens coloridas para uma anima- 
ção). Em termos de processamento digital de imagens, 
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Figura 6.6 
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Gama de cores típica de monitores coloridos (triângulo) e dispositivos de impressão em cores (região irregular). 


os modelos orientados para hardware mais utilizados na 
prática são o modelo RGB (red, green, blue — vermelho, 
verde, azul) para monitores coloridos e uma ampla clas- 
se de câmeras de vídeo em cores; o modelo CMY (cyan, 
magenta, yellow — ciano, magenta, amarelo) e o modelo 
CMYK (cyan, magenta, yellow, black — ciano, magenta, 
amarelo, preto) para a impressão colorida; e o modelo 
HSI (hue, saturation, intensity — matiz, saturação, inten- 
sidade), que corresponde estreitamente à forma como 
os seres humanos descrevem e interpretam as cores. 
O modelo HSI também possui a vantagem de separar 
as informações de cor e de escala de cinza da imagem, 
sendo mais adequado para muitas das técnicas de pro- 
cessamento de imagens em níveis de cinza apresentadas 
neste livro. Existem inúmeros modelos de cores em uso 
atualmente, em virtude de a ciência das cores constituir 
um campo amplo que engloba muitas áreas de aplica- 
ção. É tentador nos determos, aqui, em alguns desses 
modelos simplesmente por serem interessantes e infor- 
mativos. No entanto, nos restringindo ao nosso objeti- 
vo, os modelos discutidos neste capítulo são os princi- 
pais modelos para o processamento de imagens. Depois 
de dominar o material aqui apresentado, você não terá 
dificuldades em compreender outros modelos de cores 
utilizados atualmente. 


6.2.1 O modelo RGB de cores 


No modelo RGB, cada cor aparece em seus compo- 
nentes espectrais primários de vermelho, verde e azul. 
Esse modelo se baseia em um sistema de coordenadas 
cartesianas. O subespaço de cores de interesse é o cubo, 
apresentado na Figura 6.7, no qual os valores RGB pri- 
mários estão em três vértices; as cores secundárias ciano, 
magenta e amarelo estão em outros três vértices; o preto 
está na origem; e o branco está no vértice mais distante 
da origem. Nesse modelo, a escala de cinza (pontos de 
valores RGB iguais) estende-se do preto até o branco ao 
longo do segmento de reta que une esses dois pontos. 
As diferentes cores nesse modelo são pontos no cubo ou 
dentro dele e são definidas por vetores que se estendem 
a partir da origem. Por conveniência, assume-se que to- 
dos os valores de cor foram normalizados, de forma que 
o cubo mostrado na Figura 6.7 é o cubo unitário. Isto é, 
assume-se que todos os valores de R, G e B estejam no 
intervalo [0, 1]. 

Imagens representadas no modelo de cores RGB 
consistem de três componentes de imagens, uma para 
cada cor primária. Quando alimentadas em um moni- 
tor RGB, essas três imagens se combinam na tela para 
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Figura 6.7 Esquema do cubo de cores RGB. Os pontos ao longo da 
diagonal principal representam os valores de cinza, do preto na ori- 
gem ao branco no ponto (1, 1, 1). 


Amarelo 


produzir uma imagem de cores compostas, como ex- 
plicado na Seção 6.1. O número de bits utilizados para 
representar cada pixel em espaço RGB é chamado de 
profundidade de pixel. Considere uma imagem RGB na 
qual cada uma das imagens, vermelha, verde e azul, 
seja uma imagem de 8 bits. Nessas condições, diz-se 
que cada pixel de cores RGB [isto é, um trio de valores 
(R, G, B)] tem uma profundidade de 24 bits (3 planos 
de imagem multiplicado pelo número de bits de cada 
plano). O termo full-color ou simplesmente imagem co- 
lorida costuma ser utilizado para expressar uma imagem 
de cores RGB de 24 bits. O número de cores em uma ima- 
gem RGB de 24 bits é (2°)? = 16.777.216. A Figura 6.8 
mostra o cubo de cores RGB de 24 bits correspondente 
ao diagrama da Figura 6.7. 


Exemplo 6.1 Geração de planos de face oculta e um 


corte transversal do cubo de cores RGB. 


O cubo mostrado na Figura 6.8 é um sólido, compos- 
to das (2°)? = 16.777.216 cores mencionadas no parágrafo 
anterior. Uma forma prática de visualizar essas cores é gerar 
planos de cor (faces ou cortes transversais do cubo). Isso é 
feito simplesmente fixando uma das três cores e variando 
as outras duas. Por exemplo, um plano de corte transver- 
sal passando pelo centro do cubo e paralelo ao plano GB 
na Figura 6.8 é o plano (127, G, B) para G, B=0,1,2,..., 
255. Utilizamos aqui os valores reais dos pixels em vez dos 
valores convenientemente normalizados no intervalo [0, 1], 
porque os valores não normalizados são os mais utilizados 


266 Processamento digital de imagens 


Figura 6.8 Cubo de cores RGB de 24 bits. 


em sistemas computacionais na geração de cores. Na Figura 
6.9(a), é apresentada uma imagem do plano de corte trans- 
versal, vista simplesmente alimentando os três componentes 
de imagem individuais em um monitor colorido. Nos com- 
ponentes de imagem, 0 representa preto e 255 representa 
branco (observe que se trata de imagens na escala de cinza). 
Por fim, na Figura 6.9(b), são apresentados os três planos de 
superfície ocultos no cubo visualizado na Figura 6.8, gerados 
da mesma forma. 

É interessante notar que a aquisição de uma imagem 
colorida é constituída basicamente do processo mostrado na 


Figura 6.9, só que invertido. Uma imagem colorida pode ser 
adquirida utilizando três filtros, sensíveis ao vermelho, ao 
verde e ao azul, respectivamente. Quando vemos uma cena 
em cores com uma câmera monocromática equipada com 
um desses filtros, o resultado é uma imagem monocromá- 
tica cuja intensidade é proporcional à resposta desse filtro. 
Repetir esse processo com cada filtro produz as três imagens 
monocromáticas que constituem o padrão RGB da cena co- 
lorida. (Na prática, sensores de imagens em cores RGB nor- 
malmente integram esse processo em um único dispositivo.) 
Claramente, exibir esses três componentes de imagem RGB 
na forma mostrada na Figura 6.9(a) resultaria em uma re- 
presentação em cores RGB da cena original colorida. 

= 


Apesar de os recentes monitores e as placas de vídeo 
proporcionarem uma representação razoável das cores 
em uma imagem RGB de 24 bits, muitos sistemas utiliza- 
dos atualmente são limitados a 256 cores. Além disso, te- 
mos inúmeras aplicações nas quais simplesmente não faz 
sentido utilizar mais do que algumas poucas centenas de 
cores, ou até menos. Um bom exemplo disso é encontra- 
do nas técnicas de processamento de imagens em pseu- 
docores, discutidas na Seção 6.3. Dada a variedade de sis- 
temas utilizados atualmente, é de considerável interesse 
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(a) Geração da imagem RGB do plano de cor de corte transversal (127, G, B). (b) Os três planos de superfície ocultos no cubo colorido 


ter um subconjunto de cores com mais chance de serem 
reproduzidas com fidelidade, de forma razoavelmente 
independente dos recursos de hardware do sistema de 
exibição. O subconjunto e cores é chamado de conjunto 
de cores RGB seguras ou conjunto de cores seguras em todos os 
sistemas. Em aplicações na Internet, elas são chamadas de 
cores seguras da web ou cores seguras do navegador. 


Assumindo que 256 cores é o número mínimo de 
cores que podem ser reproduzidas com fidelidade por 
qualquer sistema no qual um resultado desejado prova- 
velmente será exibido, é útil ter uma notação padroniza- 
da para nos referir a essas cores. Sabe-se que 40 dessas 
256 cores são processadas de forma diferente por vários 
sistemas operacionais, deixando apenas 216 cores co- 
muns à maioria dos sistemas. Essas 216 cores se torna- 
ram o padrão de fato para as cores seguras, especialmente 
em aplicações na Internet. Elas são utilizadas sempre que 
se deseja que as cores vistas pela maioria das pessoas te- 
nham a mesma aparência. 


Cada uma das 216 cores seguras do padrão RGB 
é formada pela combinação de três valores RGB assim 
como antes, e os valores a serem combinados só podem 
ser iguais a 0, 51, 102, 153, 204 ou 255. Dessa forma, 
as combinações RGB desses valores resultam em (6)* = 
216 valores possíveis (observe que todos os valores são 
divisíveis por 3). Costuma-se expressar esses valores no 
sistema numérico hexadecimal, como mostra a Tabela 6.1. 
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Tabela 6.1 Valores válidos para cada componente RGB em 


uma cor segura. 
Sistema 
numérico 
Hexadecimal | 00 33 66 99 CC FF 
Decimal 0 51 102 153 204 255 


Equivalentes em cores 


Lembre-se que os números hexadecimais 0, 1,2,...,9, 
A, B, C, D, E, F correspondem aos números decimais 0, 
1,2,...,9,10, 11, 12, 13, 14, 15. Lembre-se também 
que (0),, = (0000), e (F),, = (1111),. Assim, por exemplo, 
(FF), = (255),, = (11111111), e vemos que o agrupamen- 
to de dois números hexadecimais forma um byte de 8 bits. 


Como são necessários três números para formar 
uma cor RGB, cada cor segura é formada a partir de três 
dos números hexadecimais de dois dígitos da Tabela 6.1. 
Por exemplo, o vermelho mais puro é FF0000. Os valores 
000000 e FFFFFF representam preto e branco, respec- 
tivamente. Tenha em mente que o mesmo resultado é 
obtido utilizando a notação decimal, mais conhecida. Por 
exemplo, o vermelho mais intenso em notação decimal 
tem R= 255(FF) eG=B=0. 

Na Figura 6.10(a) sao apresentadas as 216 cores se- 
guras, organizadas em valores RGB decrescentes. O quadra- 
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(a) As 216 cores seguras do padrão RGB. (b) Todos os tons de cinza no sistema de 256 cores RGB (os tons de cinza que fazem parte 
do grupo de cores seguras são mostrados sublinhados). 
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do no arranjo superior esquerdo tem valor FFFFFF (bran- 
co), o segundo quadrado à sua direita tem valor FFFFCC, 
o terceiro quadrado tem valor FFFF99, e assim por diante 
para a primeira linha. A segunda linha do mesmo arran- 
jo tem valores FFCCFF, FFCCCC, FFCC99, e assim por 
diante. O quadrado final desse arranjo tem valor FF0000 
(o vermelho mais intenso possível). O segundo arranjo à 
direita do que acabamos de analisar começa com o valor 
CCFFFF e prossegue da mesma forma, bem como os qua- 
tro outros arranjos. O quadrado final (inferior direito) do 
último arranjo tem valor 000000 (preto). É importante 
notar que nem todos os tons de cinza de 8 bits possíveis 
são incluídos nas 216 cores seguras. A Figura 6.10(b) 
mostra os códigos hexadecimais para todos os tons de 
cinza possíveis em um sistema RGB de 256 cores. Alguns 
desses valores não estão incluídos no conjunto de cores 
seguras, mas são apropriadamente representados (em 
termos de suas intensidades relativas) pela maioria dos 
sistemas de exibição. Os cinzas do grupo de cores seguras 
(KKKKKK),, para K = 3, 6, 9, C, F, são mostrados subli- 
nhados na Figura 6.10(b). 


Na Figura 6.11, é apresentado o cubo de cores segu- 
ras RGB. Diferentemente do cubo de cores reais (Figura 
6.8), que é sólido, o cubo da Figura 6.11 tem cores válidas 
somente nos planos de superfície. Como representado na 
Figura 6.10(a), cada plano tem um total de 36 cores, de 
forma que a superfície inteira do cubo de cores seguras é 
coberta por 216 cores diferentes, como esperado. 


6.2.2 Os modelos de cores CMY e CMYK 


Como afirmamos na Seção 6.1, ciano, magenta e 
amarelo são as cores secundárias de luz ou, alternativa- 
mente, as cores primárias de pigmentos. Por exemplo, 
quando uma superfície coberta com pigmento ciano é 
iluminada com luz branca, nenhuma luz vermelha é re- 
fletida da superfície. Isto é, o ciano subtrai a luz vermelha 
da luz branca refletida, que é composta de quantidades 
iguais de luz vermelha, verde e azul. 


Figura 6.11 Cubo de cores seguras RGB. 


A maioria dos dispositivos que depositam pigmen- 
tos coloridos sobre o papel, como impressoras e copiado- 
ras coloridas, requer dados de entrada CMY ou realizam 
internamente uma conversão de RGB a CMY. Essa con- 
versão é realizada utilizando a operação simples 


C 1| ÎR 
M |=|1|-|G (6.2-1) 
y| ul |B 


na qual, novamente, se assume que todos os valores de 
cores tenham sido normalizados para o intervalo [0, 1]. 
A Equação 6.2-1 demonstra que a luz refletida de uma 
superfície coberta com ciano puro não contém vermelho 
(isto é, que C = 1 — R na equação). De forma similar, o 
magenta puro não reflete o verde, e o amarelo puro não 
reflete o azul. A Equação 6.2-1 também revela que valores 
RGB podem ser facilmente obtidos a partir de um conjun- 
to de valores CMY subtraindo os valores CMY individuais 
de 1. Como explicado anteriormente, em processamento de 
imagens esse modelo de cores é utilizado em conexão com 
a geração de saídas impressas; assim, a operação inversa de 
CMY para RGB geralmente não é de interesse prático. 


De acordo com a Figura 6.4, quantidades iguais de 
pigmentos primários, ciano, magenta e amarelo deve- 
riam produzir o preto. Na prática, a combinação dessas 
cores para a impressão produz um preto de aparência tur- 
va. Dessa forma, para produzir o verdadeiro preto (que 
é a cor predominante na impressão), uma quarta cor, o 
preto, é adicionada, gerando o modelo de cores CMYK. 
Assim, quando os profissionais da indústria gráfica falam 
de “impressão a quatro cores”, eles estão se referindo às 
três cores do modelo de cores CMY mais o preto. 


6.2.3 O modelo HSI de cores 


Como vimos, a criação de cores nos modelos RGB 
e CMY e a conversão de um modelo ao outro represen- 
tam um processo direto. Como observado anteriormente, 
esses sistemas de cores são teoricamente adequados para 
implementações em hardware. Além disso, o sistema 
RGB se adapta muito bem ao fato de o olho humano ser 
bastante perceptivo às cores primárias vermelho, verde 
e azul. Infelizmente, o RGB, o CMY e outros modelos 
similares de cores não são muito adequados para descrever 
cores em termos práticos para a interpretação humana. 
Por exemplo, não nos referimos à cor de um carro dando 
a porcentagem de cada uma das primárias que compõem 
a cor. Além disso, não pensamos em imagens coloridas 
como compostas de três imagens primárias que se combi- 
nam para formar uma única imagem. 


Quando os seres humanos veem um objeto em co- 
res, nós o descrevemos em termos de matiz, saturação e 
brilho. Lembre-se que, com base na discussão da Seção 6.1, 
matiz é um atributo que descreve uma cor pura (amarelo, 
laranja ou vermelho puros), ao passo que a saturação dá 
uma medida do grau de diluição de uma cor pura por luz 
branca. O brilho é um descritor subjetivo praticamente 
impossível de mensurar. Ele incorpora a noção acromá- 
tica de intensidade e é um dos principais fatores na des- 
crição da sensação de cores. Sabemos que a intensidade 
(nível de cinza) é um descritor bastante útil para ima- 
gens monocromáticas. Essa quantidade é definitivamen- 
te mensurável e facilmente interpretável. O modelo que 
estamos prestes a apresentar, chamado de modelo HSI de 
cores (hue, saturation, intensity — matiz, saturação, intensi- 
dade), separa o componente intensidade das informações 
de cores (matiz e saturação) em uma imagem colorida. 
Essas características fazem do modelo HSI uma ferramen- 
ta ideal para o desenvolvimento de algoritmos de proces- 
samento de imagens com base em descrições de cores que 
são naturais e intuitivas para os seres humanos, que, afi- 
nal, são os desenvolvedores e usuários desses algoritmos. 
Podemos resumir isso dizendo que o RGB é ideal para a 
geração de imagens coloridas (como na aquisição de ima- 
gens por uma câmera colorida ou a exibição de imagens 
em um monitor), mas sua utilização na descrição de cores 
é muito mais limitada. O material a seguir apresenta uma 
forma eficaz de fazer isso. 


Como discutido no Exemplo 6.1, uma imagem co- 
lorida no padrão RGB pode ser vista como três imagens 
de intensidade monocromática (representando verme- 
lho, verde e azul), de forma que não é surpresa sermos 
capazes de extrair a intensidade de uma imagem RGB. 
Isso fica claro quando pegamos o cubo de cores da Figura 
6.7 e o colocamos “em pé” sobre o vértice preto (0, 0, 0), 
com o vértice branco (1, 1, 1) diretamente acima dele, 
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Relações conceituais entre os modelos de cores RGB e HSI. 
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como apresentado na Figura 6.12(a). Como observamos 
em relação à Figura 6.7, a intensidade (escala de cinza) 
é representada ao longo do segmento de reta que une 
esses dois vértices. No arranjo mostrado na Figura 6.12, 0 
segmento de reta (eixo de intensidade) que une o vértice 
preto ao branco é vertical. Dessa forma, se quiséssemos 
definir o componente de intensidade de qualquer ponto de 
cor da Figura 6.12, bastaria passar um plano perpendicu- 
lar ao eixo de intensidade e contendo o ponto da cor. A 
interseção do plano com o eixo de intensidade nos daria 
um ponto com um valor de intensidade no intervalo [0, 1]. 
Também é fácil observar que a saturação (pureza) de uma 
cor aumenta como uma função da distância em relação 
ao eixo de intensidade. Na verdade, a saturação dos pon- 
tos no eixo de intensidade é zero, como demonstra o fato 
de que todos os pontos ao longo desse eixo são cinza. 


Para ver como o matiz também pode ser determinado 
a partir de um dado ponto RGB, veja a Figura 6.12(b), 
onde é apresentado um plano definido por três pontos 
(preto, branco e ciano). O fato de os pontos preto e bran- 
co estarem contidos no plano nos indica que o eixo de 
intensidade também está. Além disso, vemos que todos 
os pontos contidos no semiplano definido pelo eixo de 
intensidade e as fronteiras do cubo têm o mesmo matiz 
(no caso, ciano). Chegaríamos a essa mesma conclusão 
lembrando, a partir da Seção 6.1, que toda as cores gera- 
das por três cores se localizam no triângulo definido por 
essas cores. Se dois desses pontos forem preto e branco, e 
o terceiro for um ponto de cor, todos os pontos do triângulo 
teriam o mesmo matiz porque os componentes preto e 
branco não podem mudar o matiz (é claro, a intensidade 
e a saturação dos pontos desse triângulo seriam diferen- 
tes). Rotacionando o plano sombreado em relação ao eixo 
de intensidade vertical, obteríamos matizes diferentes. 
Com base nesse conceito, chegamos à conclusão de que 
os valores de matiz, saturação e intensidade necessários 
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para formar um espaço HSI podem ser obtidos a partir 
de um cubo de cores RGB. Em outras palavras, podemos 
converter qualquer ponto RGB em um ponto correspon- 
dente no modelo de cores HSI; para tanto, basta deduzir 
as fórmulas geométricas que descrevem a lógica esboçada 
na discussão que acabamos de apresentar. 


O principal ponto que se deve ter em mente em re- 
lação ao arranjo do cubo mostrado na Figura 6.12 e seu 
correspondente espaço de cores HSI é que o espaço HSI 
é representado por um eixo de intensidade vertical e o 
conjunto de pontos de cor localizados em planos perpen- 
diculares a esse eixo. À medida que os planos se movem 
para cima e para baixo no eixo de intensidade, as frontei- 
ras definidas pela interseção de cada plano com as faces do 
cubo apresentam um semiplano de formato triangular ou 
hexagonal. Isso pode ser visualizado com mais facilidade 
visualizando o cubo no sentido de seu eixo de intensida- 
de, como mostra a Figura 6.13(a). Nesse plano, vemos 
que as cores primárias são separadas por 120º. As cores 
secundárias estão a 60º das primárias, o que significa que 
o ângulo entre as secundárias também é de 120º. A Figura 
6.13(b) mostra o mesmo formato hexagonal e a posição de 
uma cor arbitrária (representada por um ponto). O matiz 
do ponto é determinado por um ângulo a partir de algum 
ponto de referência. Normalmente (mas nem sempre) um 
ângulo de 0º a partir do eixo vermelho indica matiz 0, e o 
matiz aumenta no sentido anti-horário a partir desse pon- 


a Verde 


Ciano 


Azul 


b Verde Amarelo c 


Ciano ( 4) Vermelho 


Azul Magenta 


Branco, 


Verde 


AN 


Azul Magenta 


to. A saturação (distância a partir do eixo vertical) é o com- 
primento do vetor a partir da origem até o ponto. Observe 
que a origem é definida pela interseção dos planos de cor 
com o eixo de intensidade vertical. Os componentes im- 
portantes do espaço de cores HSI são o eixo de intensidade 
vertical, o comprimento do vetor até um ponto de cor e 
o ângulo desse vetor em relação ao eixo vermelho. Dessa 
forma, não é raro ver os planos HSI definidos em termos do 
hexágono que acabamos de analisar, um triângulo, ou até 
mesmo um círculo, como mostram as figuras 6.13(c) e (d). 
O formato escolhido não importa porque qualquer um 
deles pode ser convertido nos outros dois por uma trans- 
formação geométrica. A Figura 6.14 mostra o modelo HSI 
baseado tanto em triângulos de cor quanto em círculos. 


Conversão de RGB para HSI 


Dada uma imagem em formato de cores RGB, o com- 
ponente H de cada pixel RGB é obtido utilizando a equação” 


0 seB<G (6.2-2) 
360-0 seB>G 
com” 
1 
SUR —G)+(R— B)] 
0= cos! - TE 
[(R- G) +(R— BJ(G — B)] 
Amarelo 
Vermelho 
Magenta 
d Verde Amarelo 
Ciano Vermelho 
Vermelho Azul Magenta 


Figura 6.13 Matiz e saturação no modelo de cores HSI. O ponto representa uma cor arbitrária. O ângulo em relação ao eixo vermelho nos dá o 
matiz, e o comprimento do vetor indica a saturação. A intensidade de todas as cores em qualquer um desses planos é dada pela posição em que 


o plano corta perpendicularmente o eixo de intensidade. 


Os cálculos para converter do padrão RGB para o HSI e vice-versa são realizados pixel por pixel. Omitimos a dependência para com (x, y) 


das equações de conversão para fins de clareza na notação. 


* É uma boa prática adicionar um pequeno número ao denominador dessa expressão para evitar a divisão por 0 quando R = G = B, caso em 
que o resultado será 90°. Observe que, quando todos os componentes RGB são iguais, a Equação 6.2-3 resulta em S = 0. Além disso, a 
conversão inversa (HSI para RGB) nas equações 6.2-5 a 6.2-7 resultará em R = G = B = I, como esperávamos, porque, quando R = G = B, 


estamos lidando com uma imagem em escala de cinza. 
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Magenta 


Preto 


Figura 6.14 0 modelo de cores HSI baseado em planos de cores (a) triangular e (b) circular. Os triângulos e círculos são perpendiculares ao 


eixo de intensidade vertical. 


O componente de saturação é dado por 


$S=1-————Imín(R,6,B)] 
(R+G+B) 


Finalmente, o componente de intensidade é dado 


(6.2-3) 


por 
1 
T=5(R+G+B) (6.2-4) 


Presume-se que os valores RGB tenham sido nor- 
malizados para o intervalo [0, 1], e que esse angulo seja 


medido em relação ao eixo vermelho do espaço HSI, 
como indicado na Figura 6.13. O matiz (H) pode ser nor- 
malizado para o intervalo [0, 1] dividindo-se por 360º 
todos os valores resultantes da Equação 6.2-2. Os outros 
dois componentes HSI já estarão nesse intervalo se os va- 
lores RGB estiverem no intervalo [0, 1]. 


Os resultados das equações 6.2-2 a 6.2-4 podem ser 
deduzidos da geometria apresentada nas figuras 6.12 e 
6.13. A dedução é cansativa e não acrescentaria muito à 
presente discussão. O leitor interessado pode consultar as 
referências ou o site para uma comprovação dessas equa- 
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ções, bem como para os resultados da conversão de HSI 
para RGB apresentados a seguir.” 


Conversão de cores de HSI para RGB 


Dados os valores de HSI no intervalo [0, 1], quere- 
mos agora calcular os valores RGB correspondentes no 
mesmo intervalo. As equações aplicáveis dependem dos 
valores de H. Temos três setores de interesse, correspon- 
dentes aos intervalos de 120º que separam as cores pri- 
márias (veja a Figura 6.13). Começamos multiplicando H 
por 360º, o que devolve o matiz a seu intervalo original, 
[0º, 360º]. 

Setor RG (0° < H < 120º): Quando H estiver neste setor, 
os componentes RGB são dados pelas equações 


B=11-85) (6.2-5) 
R= rel (6.2-6) 
cos(60° — H) 
e 
G=31- (R+ B) (6.2-7) 


Setor GB (120° < H < 240°): Se o valor de H estiver neste 
setor, primeiro subtraia 120° dele: 


H= H- 120° (6.2-8) 
E então os componentes RGB serão 
R=I(1-S) (6.2-9) 
Cie dE (6.2-10) 
cos(60° — H) 
e 
B=3I-(R+G) (6.2-11) 


Setor BR (240° < H < 360°): Por fim, se H estiver neste 
intervalo, subtraimos dele 240° 


H=H-240° (6.2-12) 

E entao os componentes RGB serao 
G=I(1-8) (6.2-13) 

H 
per (6.2-14) 
cos(60° — H) 
e 

R=31-(G+B) (6.2-15) 


A utilização dessas equações em processamento de 
imagens será discutida em várias das seções a seguir. 


= 
Exemplo 6.2 Os valores HSI correspondentes à imagem 
do cubo de cores RGB. 


Na Figura 6.15, são apresentadas as imagens de matiz, 
saturação e intensidade para os valores RGB apresentados 
na Figura 6.8. A Figura 6.15(a) mostra a imagem do matiz. 
Sua principal característica é a descontinuidade ao longo de 
uma linha de 45º no plano frontal (vermelho) do cubo. Para 
entender a razão dessa descontinuidade, consulte a Figura 
6.8, trace uma linha do vértice vermelho ao branco do cubo 
e selecione um ponto no meio dessa linha. A começar desse 
ponto, trace uma trajetória à direita, ao redor do cubo até 
voltar ao ponto de partida. As principais cores encontradas 
nessa trajetória são amarelo, verde, ciano, azul, magenta e 
de volta ao vermelho. De acordo com a Figura 6.13, os va- 
lores de matiz ao longo dessa trajetória devem aumentar de 
0º a 360º (isto é, do valor mais baixo ao mais alto possível 
de matiz). Isso é justamente o que a Figura 6.15(a) mostra 
porque, na escala de cinza, o valor mais baixo é represen- 
tado pelo preto, e o valor mais alto, pelo branco. De fato, 


Figura 6.15 Componentes HS! da imagem apresentada na Figura 6.8. Imagens de (a) matiz, (b) saturação e (c) intensidade. 


* Consulte a seção Tutoriais no site do livro para uma dedução detalhada das equações de conversão entre RGB e HSI e vice-versa. 


a imagem do matiz foi originalmente normalizada para o 
intervalo [0, 1] e, depois, ajustada para 8 bits; isto é, ela foi 
convertida ao intervalo [0, 255] para a exibição. 

A imagem do componente de saturação apresentada na 
Figura 6.15(b) mostra valores progressivamente mais es- 
curos na direção do vértice branco do cubo RGB, indicando 
que as cores se tornam cada vez menos saturadas à medida que 
se aproximam do branco. Por fim, cada pixel da imagem de 
intensidade apresentada na Figura 6.15(c) representa a média 
dos valores RGB do pixel correspondente à Figura 6.8. 

= 


Manipulação dos componentes de imagens do mo- 
delo HSI 


Nas discussões a seguir, analisaremos algumas técni- 
cas simples para manipular as imagens de cada compo- 
nente do modelo HSI. Isso o ajudará a se familiarizar com 
esses componentes e também a aprofundar seu conheci- 
mento sobre o modelo de cores HSI. Na Figura 6.16(a), é 
exibida uma imagem composta das cores RGB primárias 
e secundárias. Nas figuras 6.16(b) a (d) são apresentadas 
imagens monocromáticas dos componentes H (matiz), S 
(saturação) e I (intensidade) dessa imagem, gerados uti- 
lizando as equações 6.2-2 a 6.2-4. Vale lembrar que os 
valores de níveis de cinza da Figura 6.16b correspondem 
a ângulos; dessa forma, por exemplo, como o vermelho 
corresponde a 0º, a região vermelha da Figura 6.16(a) 
corresponde a uma região preta na imagem de matiz. Da 
mesma forma, os níveis de cinza da Figura 6.16(c) corres- 
pondem à saturação (eles foram ajustados para o interva- 
lo [0, 255] para a exibição) e os níveis de cinza da Figura 


Ole 
aie 


Figura 6.16 (a) Imagem RGB e os componentes de sua imagem HSI 
correspondente: (b) matiz, (c) saturação e (d) intensidade. 
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6.16 (d) representam a média aritmética dos valores de 
R, GeB. 


Para alterar a cor individual de qualquer região da 
imagem RGB, alteramos os valores da região correspon- 
dente na imagem do matiz (Figura 6.16(b)). Depois, con- 
vertemos a nova imagem H, além das imagens inaltera- 
das Se J, de volta para RGB utilizando os procedimentos 
apresentados nas equações 6.2-5 a 6.2-15. Para alterar a 
saturação (pureza) da cor em qualquer região, seguimos 
o mesmo procedimento, com exceção do fato de que as 
alterações são realizadas na imagem de saturação no es- 
paço HSI. Comentários similares se aplicam à alteração da 
intensidade média de qualquer região. Essas alterações, é 
claro, podem ser feitas simultaneamente. Por exemplo, 
a imagem apresentada na Figura 6.17(a) foi obtida alte- 
rando para 0 os pixels correspondentes às regiões azul e 
verde da imagem apresentada na Figura 6.16(b). Na Figu- 
ra 6.17(b), reduzimos pela metade a saturação da região 
ciano no componente de imagem S da Figura 6.16(c). Na 
Figura 6.17(c), reduzimos pela metade a intensidade da 
região branca central da imagem de intensidade da Figura 
6.16(d). O resultado da conversão dessa imagem HSI mo- 
dificada para RGB é mostrado na Figura 6.17(d). Como era 
de se esperar, vemos nessa figura que as porções externas 
de todos os círculos passaram a ser vermelhas; a pureza da 
região ciano foi reduzida e a região central se tornou cinza 
em vez de branca. Apesar de esses resultados serem sim- 
ples, eles ilustram claramente o poder do modelo de cores 
HSI ao permitir o controle independente sobre o matiz, a 
saturação e a intensidade, valores com os quais já estamos 
bastante familiarizados ao descrever as cores. 


Y 
y 
Figura 6.17 (a) até (c) Componentes de imagem HSI modificados. 


(d) Imagem RGB resultante. (Veja a Figura 6.16 para as imagens HSI 
originais.) 
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6.3 Processamento de imagens em 
pseudocores 


O processamento de imagens em pseudocores (também 
chamadas de falsas cores) consiste em atribuir cores a valo- 
res de cinza com base em determinados critérios. O termo 
pseudo ou falsa cor é utilizado para diferenciar o processo 
de atribuir cores a imagens monocromáticas a partir dos 
processos associados a imagens de cor verdadeira, um tópi- 
co que discutiremos a partir da Seção 6.4. A principal uti- 
lização das pseudocores é na visualização e interpretação 
humana de eventos, em tons de cinza, em uma imagem ou 
sequência de imagens. Como observamos no início deste 
capítulo, umas das principais motivações para usar a cor é 
o fato de os seres humanos serem capazes de discernir mi- 
lhares de tons e intensidades de cor, em comparação com 
apenas aproximadamente duas dezenas de tons de cinza. 


6.3.1 Fatiamento por intensidades 


A técnica de fatiamento por intensidades (algumas ve- 
zes chamada densidade) e codificação por cores é um dos 
exemplos mais simples do processamento de imagens em 
pseudocores. Se uma imagem for interpretada como uma 
função 3-D (veja a Figura 2.18(a)), o método pode ser 
visto em termos do posicionamento de planos paralelos 
ao plano de coordenadas da imagem; cada plano, então, 
‘fatia’ a função na área de interseção. A Figura 6.18 mos- 
tra um exemplo da utilização de um plano em f(x, y) = l, 
para ‘fatiar’ uma função em dois níveis. 


f(x,y) 


Eixo de intensidade 


4 
(Branco) L-1 + 


Plano de fatiamento 
l 4 


(Preto) O 


Figura 6.18 | Interpretação geométrica da técnica de fatiamento 
por intensidades. 


=y 


Se uma cor diferente for atribuída a cada lado do 
plano mostrado na Figura 6.18, qualquer pixel cujo ní- 
vel de intensidade estiver acima do plano estará codifi- 
cado com uma cor e qualquer pixel abaixo do plano será 
codificado com a outra. Aos pixels cujos níveis estejam 
posicionados no próprio plano pode ser arbitrariamente 
atribuída uma das duas cores. O resultado é uma imagem 
em duas cores, cuja aparência relativa pode ser contro- 
lada movendo o plano de fatiamento para cima e para 
baixo ao longo do eixo de intensidade. 


Em geral, a técnica pode ser resumida como se 
segue. Com [0, L — 1] representando a escala de cinza, 
fazemos com que o nivel / represente o preto [f(x, y) = 0] 
e o nível },_ represente o branco [f(x, y) = L- 1]. Suponha 
que P planos perpendiculares ao eixo de intensidade se- 
jam definidos nos níveis /,, L, ... , l, Então, considerando 
que 0 < P< L-1, os P planos particionam a escala de 
cinza em P + 1 intervalos, V, V, ..., Vp, As atribuições 
de intensidade às cores são feitas de acordo com a relação 


fx y)=c se fix, yev, (6.3-1) 


na qual c, é a cor associada ao k-ésimo intervalo de inten- 
sidade V, definido pelos planos de partição em [= k — 1 
el=k. 

A ideia dos planos é útil principalmente para uma 
interpretação geométrica da técnica de fatiamento por in- 
tensidades. A Figura 6.19 mostra uma representação 
alternativa que define o mesmo mapeamento mostrado 


co + 


Cor 


Níveis de intensidade 


Figura 6.19 Uma representação alternativa da técnica de fa- 
tiamento por intensidades. 


na Figura 6.18. De acordo com a função de mapeamento 
mostrada na Figura 6.19, a qualquer nível de cinza de 
entrada é atribuída uma das duas cores, dependendo 
de estar acima ou abaixo do valor de /. Quando mais 
níveis são usados, a função de mapeamento assume a forma 
de uma escada. 


= 
Exemplo 6.3 Fatiamento por intensidades. 


Uma utilização simples, porém prática, do fatiamen- 
to por intensidades é apresentada na Figura 6.20. A Figu- 
ra 6.20(a) é uma imagem monocromática do Picker Thyroid 
Phantom (um padrão de teste de radiação), e a Figura 6.20(b) 
é o resultado do fatiamento por intensidades dessa imagem 
em oito regiões de cores. As regiões que aparecem com in- 
tensidade constante na imagem monocromática são, na ver- 
dade, bastante variáveis, como demonstram as várias cores 
na imagem fatiada. O lóbulo esquerdo, por exemplo, é re- 
presentado na imagem monocromática por um cinza opaco, 
onde é difícil perceber variações de intensidade. Em contras- 
te, a imagem colorida mostra claramente oito diferentes re- 
giões de intensidade constante, uma para cada cor utilizada. 

= 


No simples exemplo anterior, a escala de cinza foi 
dividida em intervalos, e uma cor diferente foi atribuída 
a cada região, sem levar em consideração o significado 
dos níveis de cinza na imagem. O interesse, nesse caso, é 
simplesmente visualizar os diferentes níveis de cinza que 
constituem a imagem. O fatiamento por intensidades as- 
sume um papel muito mais importante e útil quando a 
subdivisão da escala de cinza se baseia em características 
físicas da imagem. Por exemplo, a Figura 6.21(a) mos- 
tra a imagem radiográfica de uma solda (a região escura 
horizontal) contendo várias rachaduras e porosidades (as 
listras claras e brancas horizontais no meio da imagem). 
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Sabe-se que, quando há uma porosidade ou rachadura na 
solda, a intensidade total dos raios X que passam através 
do objeto satura o sensor de aquisição de imagens do ou- 
tro lado do objeto. Dessa forma, valores de intensidade de 
255 em uma imagem de 8 bits resultante de um sistema 
como esse automaticamente implicam um problema com 
a solda. Se um ser humano fosse julgar a análise, e pro- 
cessos manuais fossem empregados para inspecionar as 
soldas (um procedimento ainda comum nos dias de hoje), 
uma simples codificação de cores que atribui uma cor ao 
nível 255 e outra a todos os outros níveis de intensidade 
simplificaria consideravelmente o trabalho do inspetor. A 
Figura 6.21 (b) mostra o resultado. Nenhuma explicação 
é necessária para chegar à conclusão de que as taxas de 
erro humano seriam mais baixas se as imagens fossem 
apresentadas na forma da Figura 6.21(b), e não na forma 
da Figura 6.21(a). Em outras palavras, se o valor exato da 
intensidade ou o intervalo de valores que se procura for 
conhecido, o fatiamento por intensidades constitui-se em 
uma simples, porém poderosa, ferramenta de visualização, 
especialmente se várias imagens estiverem envolvidas. Ve- 
jamos a seguir um exemplo mais complexo. 


= 
Exemplo 6.4 Utilização da cor para salientar níveis 
pluviométricos. 


A medição de níveis pluviométricos, especialmente 
nas regiões dos trópicos, é empregada em diversas aplicações 
que lidam como o meio ambiente. Medidas precisas utili- 
zando sensores de solo são de difícil e dispendiosa aquisi- 
ção, e dados pluviométricos totais são ainda mais difíceis de 
obter, pois uma parcela significativa da precipitação ocorre 
no oceano. Um método para obter dados pluviométricos en- 
volve a utilização de um satélite. O satélite da TRMM (Tro- 
pical Rainfall Measuring Mission) utiliza, entre outros, três 
sensores especialmente projetados para detectar chuva: um 


Figura 6.20 


(a) Inagem monocromática do Picker Thyroid Phantom. (b) Resultado do fatiamento de densidade em oito cores. (Imagem original: 


cortesia do Dr. J. L. Blankenship, Divisão de Instrumentação e Controles, Laboratório Nacional de Oak Ridge.) 
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Figura 6.21 (a) Imagem radiográfica de uma solda. (b) Resultado 
da codificação por cores. (Imagem original: cortesia da X-TEK Sys- 
tems, Ltd.) 


radar de precipitação, uma câmera por micro-ondas e 
um scanner infravermelho (veja as seções 1.3 e 2.3 sobre 
as modalidades de sensoriamento de imagens). 


Os resultados dos sensores de chuva são processados, 
resultando na estimativa de precipitação ao longo de um 
determinado período na área monitorada pelos sensores. 
A partir dessas estimativas, não é difícil gerar imagens em 
escala de cinza cujos valores de intensidade correspondam di- 
retamente à precipitação, na qual cada pixel representa uma 
área de terreno físico cujo tamanho depende da resolução dos 
sensores. Uma imagem de intensidade como essa é apresen- 
tada na Figura 6.22 (a), onde a área monitorada pelo satélite é 
a banda horizontal ligeiramente mais clara no terço mediano 
da imagem (as regiões tropicais). Nesse exemplo em particu- 
lar, os valores pluviométricos são valores médios mensais (em 
polegadas) ao longo de um período de três anos. 

A análise visual dessa imagem em busca de padrões de 
precipitação é bastante difícil, se não impossível. Contudo, 
suponha que codifiquemos os níveis de intensidade de O a 


255 utilizando as cores mostradas na Figura 6.22(b). Os va- 
lores que se aproximam do azul significam baixos níveis de 
precipitação, e os que se aproximam do vermelho indicam 
altos níveis de precipitação. Observe que a escala atinge o 
máximo em vermelho puro para valores de precipitação aci- 
ma de 20 polegadas. A Figura 6.22(c) mostra o resultado da 
codificação por cores da imagem cinza tomando como base o 
mapa de cores que acabamos de analisar (Figura 6.22(b)). Os 
resultados são muito mais fáceis de interpretar, como mos- 
tram essa figura e a área ampliada na Figura 6.22(d). Além 
de proporcionar cobertura global, esse tipo de dado permite 
que os meteorologistas calibrem sistemas de monitoramento 
em solo com maior precisão. 

E 


6.3.2 Transformações de intensidade para cores 


Outros tipos de transformações são mais gerais e, 
portanto, capazes de atingir uma escala mais ampla de 
realce por pseudocores do que a técnica simples de fatia- 
mento discutida na seção anterior. Um método particu- 
larmente interessante é mostrado na Figura 6.23. Basica- 
mente, a ideia por trás dessa metodologia é realizar três 
transformações independentes sobre a intensidade de 
qualquer pixel de entrada. Os três resultados são, então, 
alimentados separadamente nos canais vermelho, verde 
e azul de um monitor colorido. Esse método produz uma 
imagem composta cujo conteúdo de cores é modulado 
pela natureza das funções de transformação. Observe que 
se trata de transformações sobre os valores de intensidade 
de uma imagem, não sendo funções da posição. 


O método discutido na seção anterior constitui um 
caso especial da técnica que acabamos de descrever. Na- 
quele caso, as funções lineares por partes dos níveis de 
intensidade (Figura 6.19) geram cores. Entretanto, o mé- 
todo discutido nesta seção pode ser baseado em funções 
não lineares e suaves que, como seria de se esperar, re- 
sultam em uma técnica consideravelmente mais flexível. 


= 
Exemplo 6.5 Utilização das pseudocores para salientar 
explosivos em bagagens. 


A Figura 6.24(a) mostra duas imagens monocromáticas 
de bagagens obtidas por meio de um sistema de escanea- 
mento por raios X em um aeroporto. A imagem à esquerda 
contém itens comuns. A imagem à direita contém os mes- 
mos itens, bem como um bloco que simula explosivos plás- 
ticos. O objetivo deste exemplo é ilustrar a utilização dos ní- 
veis de intensidade em transformações de cores na obtenção 
de vários graus de realce. 


A Figura 6.25 mostra as funções de transformação uti- 
lizadas. Essas funções senoidais contêm regiões de valores 
relativamente constantes em torno dos picos, bem como re- 
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Figura 6.22 


(a) Imagem em escala de cinza na qual a intensidade (na banda horizontal mais clara mostrada) corresponde à média da precipita- 


ção mensal. (b) Cores atribuídas aos valores de intensidade. (c) Imagem codificada por cores. (d) Ampliação da região da América do Sul. (Imagem 


original: cortesia da Nasa.) 


giões com variações abruptas nas próxidades dos vales. A 
mudança de fase e a frequência de cada senoide enfatiza 
(em cores) intervalos na escala de cinza. Por exemplo, se to- 
das as três transformações possuem a mesma fase e frequência, 
a imagem resultante será monocromática. Uma pequena 
alteração na fase entre as três transformações produz uma 
pequena mudança nos pixels cujas intensidades correspon- 
dem a picos nas senoides, especialmente se estas possuírem 
perfis amplos (baixas frequências). Pixels com valores de 
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Figura 6.23 Diagrama de bloco do processamento de imagens em 
pseudocores. f, f e f, são os parâmetros de entrada dos canais ver- 
melho, verde e azul de um monitor colorido no padrão RGB. 


intensidade nas seções elevadas das senoides recebem um 
conteúdo de cor muito mais intenso, em consequência das 
significativas diferenças entre as amplitudes das três senoi- 
des provocadas pelo deslocamento de fase entre elas. 


A imagem apresentada na Figura 6.24(b) foi obtida 
com as funções de transformação da Figura 6.25(a), que 
mostra as faixas de nível de cinza correspondentes ao explo- 
sivo, porta-terno e fundo, respectivamente. Observe que o 
explosivo e o fundo possuem diferentes níveis de intensida- 
de, mas foram ambos codificados com aproximadamente a 
mesma cor em função da periodicidade das ondas senoidais. 
A imagem apresentada na Figura 6.24(c) foi obtida através 
das funções de transformação da Figura 6.25(b). Nesse caso, 
as faixas de intensidade dos explosivos e do porta-terno fo- 
ram mapeadas por transformações semelhantes e, assim, re- 
ceberam essencialmente as mesmas atribuições de cor. Ob- 
serve que esse mapeamento permite a um observador ver os 
explosivos. Os mapeamentos do fundo foram aproximada- 
mente os mesmos utilizados na Figura 6.24(b), produzindo 
atribuições de cor praticamente idênticas. 

a 


A metodologia apresentada na Figura 6.23 se baseia 
em uma única imagem monocromática. Muitas vezes, é 
interessante combinar várias imagens monocromáti- 
cas em uma única composição colorida, como mostra 
a Figura 6.26. Uma utilização frequente dessa técnica 
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Figura 6.24 Realce por pseudocores utilizando as transformações de níveis de cinza para cores descritas na Figura 6.25. (Imagem original: 
cortesia do Dr. Mike Hurwitz, Westinghouse.) 
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Figura 6.25 Funções de transformação utilizadas para obter as imagens da Figura 6.24. 
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Figura 6.26 Metodologia de codificação de pseudocores utilizada quando varias imagens monocromáticas estão disponíveis. 


(ilustrada no Exemplo 6.6) está no processamento de 
imagens multiespectrais, no qual diferentes sensores pro- 
duzem imagens monocromáticas individuais, cada ima- 
gem representando uma banda espectral diferente. Os 
processamentos adicionais citados na Figura 6.26 podem 
consistir em técnicas como balanceamento de cores (veja 
a Seção 6.5.4), combinação de imagens e seleção de três 
imagens para exibição, com base no conhecimento das 
características de resposta dos sensores utilizados. 
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= 
Exemplo 6.6 Codificação por cores a partir de imagens 
multiespectrais. 


As figuras 6.27(a) a (d) mostram quatro imagens espec- 
trais de satélite da cidade de Washington, D.C., incluindo 
parte do Rio Potomac. As três primeiras imagens represen- 
tam as bandas vermelha, verde e azul visíveis e a quarta, o 
infravermelho próximo (veja a Tabela 1.1 e a Figura 1.10). 
A Figura 6.27(e) é a imagem em cores reais obtidas pela com- 
binação RGB das três primeiras imagens. As imagens coloridas 


Figura 6.27 


(a) a (d) Imagens das bandas 1 a 4 da Figura 1.10 (veja a Tabela 1.1). (e) Imagem colorida obtida pela combinação RGB de (a), (b) 


e (c). (f) Inagem obtida da mesma forma, mas utilizando o infravermelho próximo (d) no lugar do vermelho. (Imagens multiespectrais originais: 


cortesia da Nasa.) 
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de áreas densas são de difícil interpretação, mas uma ca- 
racterística notável dessa imagem é a diferença das cores de 
várias partes do Rio Potomac. A Figura 6.27(f) é um pouco 
mais interessante. Essa imagem foi formada substituindo o 
componente vermelho da Figura 6.27(e) pelo infravermelho 
próximo. Com base na Tabela 1.1, sabemos que essa banda é 
altamente sensível aos componentes de biomassa. A Figura 
6.27(f) mostra com bastante clareza a diferença entre a bio- 
massa (em vermelho) e as estruturas construídas pelo ho- 
mem, compostas principalmente de concreto e asfalto, que 
aparecem na imagem representadas por tons de azul. 


O tipo de processamento que acabamos de ilustrar é 
bastante poderoso para ajudar a visualizar objetos de interes- 
se em imagens complexas, especialmente quando esses obje- 
tos de interesse estão além das nossas capacidades sensoriais. 
A Figura 6.28 representa um excelente exemplo disso. Ela 
mostra imagens da lua de Júpiter, Io, mostrada em pseudoco- 
res por meio da combinação de várias imagens dos diferentes 
sensores da nave espacial Galileo, algumas das quais estão em 
regiões espectrais não visíveis pelo olho humano. No entanto, 


Figura 6.28 


(a) Uma representação em pseudocores da lua de Jú- 
piter, lo. (b) Uma aproximação. (Imagem original: cortesia da Nasa.) 


com base na compreensão dos processos físicos e químicos 
que provavelmente afetam a resposta do sensor, é possível 
combinar as imagens captadas em um mapa de pseudocores 
significativo. Uma forma de combinar os dados da imagem 
captada é se basear em como elas representam as diferenças 
da superfície em termos de composição química ou alterações 
na forma como a superficie reflete a luz do sol. Por exemplo, 
na imagem em pseudocores da Figura 6.28(b), o vermelho in- 
tenso representa material recém-ejetado de um vulcão ativo 
em Io, e o material amarelo ao redor mostra antigos depósitos 
de enxofre. As características de Io podem ser vistas com mui- 
to mais facilidade nessa imagem do que seria possível se ana- 
lisássemos cada componente de imagem individualmente. 

E 


6.4 Fundamentos do processamento de 
imagens coloridas 


Nesta seção, daremos início ao estudo das técnicas 
de processamento aplicáveis em imagens coloridas. Apesar 
de estarem longe de ser apenas introdutórias, as técnicas 
apresentadas nas seções a seguir são representativas no 
tratamento de imagens coloridas para uma variedade de 
tarefas de processamento de imagens. Os métodos de proces- 
samento de imagens coloridas são divididos em duas ca- 
tegorias principais. Na primeira categoria, processaremos 
individualmente cada componente de imagem e depois, a 
partir dos componentes individualmente processados, for- 
maremos a imagem colorida processada. Na segunda cate- 
goria, trabalharemos diretamente com os pixels coloridos. 
Como as imagens coloridas têm pelo menos três compo- 
nentes, os pixels de cores são vetores. Por exemplo, no sis- 
tema RGB, cada ponto de cor pode ser interpretado como 
um vetor que se estende da origem ao ponto no sistema de 
coordenadas RGB (veja Figura 6.7). 


Com c representando um vetor arbitrário no espaço 
de cores RGB, temos: 


Ce R 
c=|c,|=|G (6.4-1) 
c B 


Essa equação indica que os componentes de c são 
simplesmente os componentes RGB de um ponto da ima- 
gem colorida. Utilizando a notação, temos que os com- 
ponentes de cor são representados por uma função de 
coordenada (x, y). 


CAI) |R(x,y) 
C(X, Y) =| C4 (xX, y) =|G(x,y) (6.4-2) 
c,(x,y)| | B(x, y) 


Para uma imagem de tamanho M x N, existem MN 
vetores como esses, c(x, y), parax=0, 1, 2, ..., M- l; 
y=0,1,2,...,N-l. 


É importante ter mente que a Equação 6.4-2 represen- 
ta um vetor cujos componentes variam espacialmente em 
x e y. Trata-se de uma fonte frequente de confusão que 
podemos evitar nos concentrando no fato de que o nosso 
interesse se restringe aos processamentos espaciais. Isto 
é, estamos interessados nas técnicas de processamento de 
imagens formuladas em função de x e y. O fato de os pi- 
xels agora serem pixels de cores acrescenta um fator que, 
para uma melhor formulação, nos permite processar uma 
imagem colorida por meio do processamento individual 
de cada um dos seus componentes de imagem, utilizan- 
do métodos de processamento de imagens em níveis de 
cinza. No entanto, os resultados do processamento indi- 
vidual dos componentes de cor nem sempre equivalem ao 
processamento direto no espaço vetorial de cores, o que 
implica a elaboração de novas técnicas. 


Para que o processamento por componente de cor 
e o processamento baseado em vetores sejam equivalen- 
tes, duas condições precisam ser satisfeitas: em primei- 
ro lugar, o processo precisa ser aplicável tanto a vetores 
quanto a escalares. Em segundo lugar, a operação em 
cada componente de um vetor deve ser independente 
dos outros componentes. A título de exemplo, a Figura 
6.29 mostra um exemplo de técnica de processamento 
espacial de vizinhança sendo aplicado em uma imagem 
em escala de cinza e em uma imagem colorida. Suponha 
que o processo seja o cálculo da média da vizinhança. 
Na Figura 6.29(a), a média seria calculada somando as 
intensidades de todos os pixels da vizinhança e dividindo 
pela quantidade de pixels envolvidos. Na Figura 6.29(b), 
a média poderia ser calculada somando todos os vetores 
da vizinhança e dividindo cada componente pelo núme- 
ro total de vetores. Mas cada componente do vetor de 


(wy) 


Mascara espacial E; 


Imagem em escala de cinza 


Figura 6.29 
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média é a soma dos pixels da imagem correspondente a 
esse componente, que é igual ao resultado que seria obti- 
do se a média fosse calculada individualmente para cada 
componente, e depois fossem reagrupados os vetores. 
Mostraremos isso em mais detalhes nas seções a seguir. 
Também mostraremos métodos nos quais os resultados 
obtidos pelas duas técnicas não são iguais. 


6.5 Transformações de cores 


As técnicas descritas nesta seção, chamadas coleti- 
vamente de transformações de cores, lidam com o proces- 
samento dos componentes de uma imagem colorida 
no contexto de um único modelo de cores em oposição à 
conversão desses componentes entre modelos (como as 
transformações de conversão de RGB para HSI e de HSI 
para RGB, apresentadas na Seção 6.2.3). 


6.5.1 Formulação 


Como no caso das técnicas de transformação de 
intensidade apresentadas no Capítulo 3, modelamos as 
transformações de cores utilizando a expressão 


g(x, y) = TIP 9)] (6.5-1) 


na qual f(x, y) é uma imagem colorida de entrada, g(x, y) 
é a imagem colorida de saída já processada, e T é um ope- 
rador em f definido em uma vizinhança do ponto (x, y). A 
principal diferença entre essa equação e a Equação 3.1-1 
está em sua interpretação. Os valores de pixels aqui são 
vetores tri ou quadridimensionais, dependendo do espa- 
ço de cores escolhido para representar as imagens, como 
ilustra a Figura 6.29(b). 


De forma análoga ao método que utilizamos para 
apresentar as transformações de intensidade básicas na 
Seção 3.2, nos limitaremos nesta seção às transformações 
de cores na forma 


Máscara espacial S 


Imagem colorida RGB 


Mascaras espaciais para imagens em escala de cinza e imagens coloridas no padrao RGB. 
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s= Pad T= l, 2M 


i (6.5-2) 
na qual, para fins de simplificação, r, e s, expressam os 
componentes de cor de f(x, y) e g(x, y) em qualquer ponto 
(x, y), n é o número de componentes de cor e {T,, Ty ..., 
T} é o conjunto de funções de mapeamento de cor ou 
transformações que operam em r, para produzir s, Obser- 
ve, na Equação 6.5-1, que n transformações, T, se combi- 
nam para implementar uma única função de transforma- 
ção, T. O espaço de cores escolhido para descrever os pixels 
de fe g determina o valor de n. Se o espaço de cores RGB 
for selecionado, por exemplo, n=3 er, r,e r, expressarão, 
respectivamente, os componentes vermelho, verde e azul 
da imagem de entrada. Se os espaços de cores CMYK ou 


HSI fossem escolhidos, teríamos n = 4 ou n = 3. 


A imagem colorida da Figura 6.30 apresenta uma 
imagem colorida, em alta resolução, de uma tigela com 
morangos e uma xícara de café, digitalizada a partir de 
um negativo colorido em formato grande (4” x 5”). A 
segunda linha da figura contém os componentes da di- 
gitalização CMYK original. Nelas, o preto representa o 0 
(ausência de intensidade) e o branco representa o 1 
(intensidade total). Dessa forma, vemos que os moran- 
gos são compostos de grandes quantidades de magenta 
e amarelo porque as imagens correspondentes a esses 
dois componentes CMYK são as mais claras. O preto é 
utilizado com moderação e, em geral, está associado ao 
café e às sombras dentro da tigela de morangos. Quando 
a imagem CMYK é convertida em RGB, como visto nas 
imagens que compõem a terceira linha da figura, vemos 
que os morangos contêm uma grande quantidade de ver- 
melho e muito pouco (apesar de presente) verde e azul. 
A última linha da Figura 6.30 mostra os componentes 
HSI da imagem colorida — calculados utilizando as equa- 
ções 6.2-2 a 6.2-4. Como era de se esperar, o componente 
de intensidade é uma representação monocromática da 
imagem original (colorida). Além disso, os morangos são 
relativamente puros em termos de cores; eles apresentam 
a maior saturação ou a menor diluição por luz branca 
em relação a qualquer outro elemento da imagem. Por 
fim, notamos alguma dificuldade na interpretação do com- 
ponente do matiz. O problema se deve ao fato de que (1) 
há uma descontinuidade no modelo HSI onde 0º e 360º 
se encontram (veja a Figura 6.15) e (2) o matiz é indefinido 
para saturação igual a 0 (isto é, para branco, preto e cinzas 
puros). A descontinuidade do modelo é mais visível ao re- 
dor dos morangos, onde existem valores de nível de cinza 
próximos tanto do preto (0) quanto do branco (1). O resul- 
tado é uma mistura inesperada de níveis de cinza de grande 
contraste para representar uma única cor — o vermelho. 


Qualquer um dos componentes dos espaços de co- 
res da Figura 6.30 pode ser utilizado com a Equação 6.5-2. 
Na teoria, qualquer transformação pode ser realizada em 
qualquer modelo de cores. Na prática, contudo, algumas 
operações são mais adequadas a modelos específicos. Para 
uma dada transformação, o custo da conversão entre re- 
presentações deve ser levado em consideração na escolha 
do espaço de cores em que será implementada. Suponha, 
por exemplo, que se optou por modificar a intensidade da 
imagem colorida da Figura 6.30 utilizando 


g(x, y) = Kf(x, y) (6.5-3) 


sendo 0 < k < 1. No espaco de cores HSI, isso pode ser 
feito com a simples transformação 


s, = kr, (6.5-4) 


na qual s, =r, es,=r,. Só o componente de intensidade do 
HSI (r,) é modificado. A mesma operação no espaço de co- 
res RGB obrigaria a transformação dos três componentes: 


s=kr, i=1,2,3 (6.5-5) 


Já no espaço CMY, tal operação requer um conjun- 
to similar de transformações lineares: 


s=kr + (l-k) i=1,2,3 (6.5-6) 


Apesar de a transformação no espaço HSI envolver 
um número menor de operações, os cálculos necessários 
para converter uma imagem RGB ou CMY(K) para o es- 
paço HSI mais do que anula (neste caso) as vantagens da 
transformação mais simples — os custos computacionais 
dessa conversão são maiores do que os custos da trans- 
formação de intensidade em si. Independentemente do 
espaço de cores selecionado, o resultado é o mesmo. A 
Figura 6.31(b) mostra os resultados da aplicação de qual- 
quer uma das transformações nas equações 6.5-4 a 6.5-6 
à imagem colorida da Figura 6.30 utilizando k = 0,7. As 
funções de mapeamento em si são representadas em for- 
ma de gráfico nas figuras 6.31(c) a (e). 


É importante notar que cada transformação defi- 
nida nas equações 6.5-4 a 6.5-6 dependem somente de 
um componente em seu espaço de cores. Por exemplo, o 
componente de saída vermelho, s,, na Equação 6.5-5, é 
independe do verde (r,) e do azul (r,); ele depende apenas 
da entrada vermelha (r,). Transformações desse tipo estão 
entre as mais simples e mais utilizadas ferramentas de pro- 
cessamento de cores e podem ser realizadas em cada com- 
ponente de cor de forma independente, como menciona- 
mos no início da discussão. Analisaremos a seguir, nesta 
seção, várias transformações como essa e discutiremos um 
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Figura 6.30 Uma imagem colorida e seus vários componentes para diferentes espaços de cores. (Imagem original: cortesia da MedData 


Interactive.) 


caso no qual as funções de transformação dos componen- 
tes dependem de todos os componentes de cor da imagem 
de entrada e, dessa forma, não pode se realizada de forma 
individualizada nos componentes de cor. 


6.5.2 Complementos de cor 


Os matizes diretamente opostos uns aos outros no cír- 
culo de cores” (Figura 6.32) são chamados de complementos. O 


* O círculo de cores foi desenvolvido por Sir Isaac Newton, que, 
no século XVII, uniu as extremidades do espectro de cores para 
formar o primeiro círculo de cores. 


nosso interesse nos complementos se deve ao fato de eles 
serem análogos aos negativos em escala de cinza da Seção 
3.2.1. Como no caso da escala de cinza, os complementos de 
cor são úteis para realçar os detalhes presentes nas regiões 
escuras de uma imagem colorida — particularmente quan- 
do as regiões são dominantes em termos de tamanho. 


= 
Exemplo 6.7 Calculando os complementos de uma 
imagem colorida. 
As figuras 6.33(a) a (c) mostram a imagem colorida da 


Figura 6.30 e seus complementos de cor. As transformações 
RGB utilizadas para calcular o complemento podem ser vis- 
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Ajuste da intensidade de uma imagem utilizando transformações de cores. (a) Imagem original. (b) Resultado da redução de sua 


intensidade em 30% (isto é, com k = 0,7). (c) a (e) As funções de transformação RGB, CMY e HSI necessárias. (Imagem original: cortesia da 


MedData Interactive.) 


tas na Figura 6.33(b). Elas são idênticas à transformação ne- 
gativa de escala de cinza definida na Seção 3.2.1. Note que o 
complemento calculado lembra negativos convencionais de 
fotografias coloridas. Os vermelhos da imagem original são 
substituídos na imagem complemento pelo ciano. Quando a 
imagem original é preta, o complemento é branco, e assim 
por diante. Cada um dos matizes da imagem complemento 
pode ser previsto a partir da imagem original utilizando o 
círculo de cores apresentado na Figura 6.32, e cada uma das 
transformadas do componente RGB envolvidas no cálculo 
do complemento é uma função apenas do componente de 
cor correspondente na imagem original. 


Magenta 


Ciano Vermelho 


Amarelo 


Figura 6.32 Complementos do círculo de cores. 


Diferentemente das transformações de intensidade da 
Figura 6.31, as funções de transformação do complemento 
RGB utilizadas neste exemplo não têm um equivalente di- 
reto no espaço HSI. Deixamos como atividade para o leitor 
(veja o Exercício 6.18) demonstrar que o componente de 
saturação do complemento não pode ser calculado somente 
a partir do componente de saturação da imagem de entrada. 
A Figura 6.33(d) apresenta uma aproximação do comple- 
mento utilizando as transformações de matiz, saturação e 
intensidade apresentadas na Figura 6.33(b). Observe que o 
componente de saturação da imagem de entrada é inaltera- 
do; ele é responsável pelas diferenças visuais entre as figuras 
6.33(c) e (d). 

= 


6.5.3 Fatiamento de cores 


Destacar uma variação específica de cores em uma 
imagem é útil para destacar algum objeto em relação 
aos seus vizinhos. A ideia básica é (1) exibir as cores 
de interesse de forma que elas se destaquem do plano de 
fundo ou (2) utilizar a região definida pelas cores como 
uma máscara para processamento posterior. A aborda- 
gem mais direta é estender as técnicas de fatiamento por 
intensidades apresentadas na Seção 3.2.4. Em virtude 
de um pixel de cores ser representado por um vetor 
n-dimensional, as funções de transformação de cores re- 
sultantes são mais complicadas do que suas contrapartes 
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Figura 6.33 Transformações do complemento de cores. (a) Imagem original. (b) Funções de transformação do complemento. (c) Complemento 
de (a) baseado nas funções de mapeamento RGB. (d) Uma aproximação do complemento RGB utilizando transformações HSI. 


em escala de cinza apresentadas na Figura 3.11. Na ver- 
dade, as transformações necessárias são mais complexas 
do que as transformadas de componentes de cor vistas até 
agora. Isso ocorre porque, na prática, todas as técnicas de 
fatiamento de cores requerem que a componente de cor 
de cada pixel transformado seja uma função de todos os n 
componentes de cor dos pixels da imagem original. 


Uma das formas mais simples de ‘fatiar’ uma ima- 
gem colorida é associar as cores fora de algum interva- 
lo de interesse a uma cor neutra não proeminente. Se 
as cores de interesse forem delimitadas por um cubo 
(ou hipercubo para n > 3) de largura W e centraliza- 
do em uma cor prototípica (por exemplo, média) com 
componentes (a, à, ..., d,), O conjunto necessário de 
transformações é 


W 
0,5 se hass 
S = 2 qualquer 1<j<n 
f; caso contrário 
i=1,2,....n (6.5-7) 


Essas transformações salientam as cores ao redor do 
protótipo, forçando todas as outras cores ao ponto médio 
do espaço de cores de referência (um ponto neutro arbi- 
trariamente escolhido). Para o espaço de cores RGB, por 
exemplo, um ponto neutro apropriado é o cinza médio 
ou a cor (0,5, 0,5, 0,5). 


Se uma esfera for utilizada para especificar as cores 
de interesse, a Equação 6.5-7 passa a ser 


F caso contrário 


=, ee (6.5-8) 


Aqui, R, é o raio da esfera delimitadora (ou hiperes- 
fera para n > 3) e (a, a, ... , A) são OS componentes em 
seu interior (isto é, a cor prototípica). Outras variações 
úteis das equações 6.5-7 e 6.5-8 incluem a implementa- 
ção de vários protótipos de cores e a redução da intensi- 
dade das cores fora da região de interesse — em vez de 
defini-las como uma constante neutra. 
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Exemplo 6.8 Ilustração do fatiamento de cores. 


As equações 6.5-7 e 6.5-8 podem ser utilizadas para 
separar a parte comestível dos morangos (Figura 6.31(a)) das 
xícaras, tigela, café e mesa ao fundo. As figuras 6.34(a) e (b) 
mostram resultados da aplicação das duas transformações. 
Em cada caso, um protótipo vermelho com coordenadas de 
cores RGB (0,6863, 0,1608, 0,1922) foi selecionado do mo- 
rango mais proeminente; We R, foram escolhidos de forma 
que a região salientada não se expandisse a regiões inde- 
sejáveis da imagem. Os valores verdadeiros, W = 0,2549 e 
R, = 0,176, foram interativamente determinados. Observe 
que a transformação baseada em esfera (Equação 6.5-8) é 
ligeiramente melhor, pois “captura” mais das áreas verme- 
lhas dos morangos. Uma esfera de raio 0,1765 não delimita 
completamente um cubo de largura 0,2549, mas também 
não é completamente delimitada pelo cubo. 

E 


6.5.4 Correções de tonalidades e cores 


As transformações de cores podem ser realizadas 
pela maioria dos computadores pessoais. Em conjunção 
com câmeras digitais, digitalizadores de mesa e impres- 
soras a jato de tinta, elas transformam um computador 
pessoal em um estúdio digital — permitindo que ajustes 
de tonalidade e correções de cor, que são os principais 
recursos dos mais recentes sistemas de reprodução de co- 
res, sejam realizados sem a necessidade de instalações de 
processamento tradicionais (isto é, salas escuras). Apesar 
de as correções de tonalidade e cor serem úteis em ou- 
tras áreas da aquisição de imagens, a presente discussão 
se concentrará nas utilizações mais comuns — realce de 
fotografias e reprodução de cores. 


A eficácia das transformações analisadas nesta seção 
é julgada, em última instância, na impressão. Como essas 


transformações são desenvolvidas, refinadas e avaliadas em 
monitores, é necessário manter um alto nível de consistên- 
cia das cores entre os monitores utilizados e os eventuais 
dispositivos de saída. De fato, as cores dos monitores devem 
representar com precisão quaisquer imagens digitalmente 
adquiridas, bem como a impressão final. A melhor forma 
de fazer isso é com um modelo de cor independente de dispositivo 
que relacione a gama de cores (veja a Seção 6.1) dos moni- 
tores com os dispositivos de saída, bem como quaisquer ou- 
tros dispositivos utilizados conjuntamente. O sucesso dessa 
metodologia depende da qualidade dos perfis de cor utiliza- 
dos para mapear cada dispositivo ao modelo e vice-versa. O 
modelo utilizado em muitos sistemas de gerenciamento de cores 
(SGC) é o modelo CIE L*a*b*, também chamado de Cielab 
[CIE (1978), Robertson (1977)]. Os componentes de cor 
L*a*b* são determinados pelas equações a seguir: 


1*=116-h||-16 (6.5-9) 
Ww 
a= 500 [A |-» X 65-10) 
Xw Ww 
b* = 200|h| | n| 2 (6.5-11) 
Ww Ww 
sendo 
3 
Hq) = lq q>0,008856 15 15, 
7,787q+16/116 q < 0,008856 


e Xw Yw € Z, são valores de referência do triestímulo bran- 
co — normalmente o branco de um difusor de reflexão 
perfeita no padrão CIE de iluminação D65 (determinado 
por x = 0,3127 e y = 0,3290 no diagrama de cromaticidade 
CIE da Figura 6.5). O espaço de cores L*a*b* é colorimétrico 


Figura 6.34 Transformações de fatiamento de cores que detectam (a) vermelhos em um cubo RGB de largura W/= 0,2549 centralizado em 
(0,6863, 0,1608, 0,1922) e (b) vermelhos em uma esfera RGB de raio 0,1765, centralizada no mesmo ponto. Os pixels fora do cubo e da esfera 


foram substituídos pela cor (0,5, 0,5, 0,5). 


(isto é, as cores percebidas como correspondentes são co- 
dificadas de forma idêntica), perceptualmente uniforme [isto 
é, as diferenças de cor entre vários matizes são percebidas 
de modo uniforme — veja o artigo clássico de MacAdams 
(1942)] — e independente de dispositivo. Apesar de não ser um 
formato que pode ser diretamente exibido (é necessária a 
conversão a um outro espaço de cores), sua gama inclui 
todo o espectro visível e pode representar com precisão 
as cores de qualquer dispositivo de exibição, impressão ou 
entrada. Como o sistema HSI, o L*a*b* é um excelente de- 
sacoplador de intensidade (representado pela clareza L*) e 
cor (representado por a* para vermelho menos verde e b* 
para verde menos azul), fazendo com que ele seja útil tan- 
to para a manipulação de imagens (edição de tons e con- 
traste) quanto para aplicações em compressão de imagens.” 


O principal benefício dos sistemas calibrados de aqui- 
sição de imagens é que eles permitem que desequilíbrios 
de tons e cor sejam interativa e independentemente cor- 
rigidos — isto é, em duas operações sequenciais. Antes de 
solucionar as irregularidades das cores, como cores com 
saturação em excesso ou insuficiente, problemas envol- 
vendo o intervalo de tonalidade da imagem são corrigidos. 
O intervalo de tonalidade de uma imagem, também chamado 
de key type, refere-se à sua distribuição geral de intensi- 
dades de cor. A maior parte das informações de cor em 
imagens de alta tonalidade (high-key) está concentrada em 
intensidades altas (ou claras); as cores em imagens de baixa 
tonalidade (low-key) estão localizadas predominantemente 
em baixas intensidades; em imagens de média tonalidade 
(middle-key) posicionam-se entre os dois primeiros. Como 
no caso monocromático, costuma ser desejável distribuir 
as intensidades de uma imagem colorida igualmente entre 
os pontos de alto e baixo brilho. Os exemplos a seguir de- 
monstram uma variedade de transformações de cores para 
a correção de desequilíbrios de tonalidade e de cor. 


= 
Exemplo 6.9 Transformações de tonalidade. 


As transformações para modificar a tonalidade de uma 
imagem normalmente são selecionadas interativamente. 
A ideia é ajustar experimentalmente o brilho e o contraste 
da imagem para resultar em um detalhamento máximo ao 
longo de um intervalo de intensidades apropriado. As cores 
em si não são alteradas. Nos espaços RGB e CMY(K) isso sig- 
nifica mapear todos os três (ou quatro) componentes de cor 
com a mesma função de transformação; no espaço de cores 
HSI, só o componente de intensidade é modificado. 


A Figura 6.35 mostra transformações típicas utilizadas 
para corrigir três desequilíbrios de tonalidade comuns — ima- 


* Estudos indicam que o grau no qual as informações de luminân- 
cia (claridade) são separadas das informações de cor em L*a*b* é 
maior do que em outros modelos de cores — como CIELUV, YIQ, 
YUV, YCC e XYZ [Kasson e Plouffe (1992)]. 
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gens uniformes, claras e escuras. A curva em formato de S 
na primeira linha da figura é ideal para aumentar o contraste 
(veja a Figura 3.2 (a)). Seu ponto médio é posicionado de for- 
ma que áreas com baixo e alto brilho possam ser clareadas e 
escurecidas, respectivamente. (A inversa dessa curva pode ser 
utilizada para corrigir o contraste excessivo). As transforma- 
ções na segunda e terceira linhas da figura corrigem imagens 
claras e escuras e lembram as transformações de potência da 
Figura 3.6. Apesar de os componentes de cor serem discretos, 
como as funções de transformação em si, as próprias funções 
de transformação são exibidas e manipuladas como valores 
contínuos — normalmente construídas a partir de polinômios 
lineares por partes ou de ordem superior (para mapeamentos 
mais suaves). Observe que as tonalidades das imagens exibi- 
das na Figura 6.35 são diretamente observáveis; elas também 
poderiam ser determinadas utilizando os histogramas de cada 
componente de cor das imagens. 

E 


E 
Exemplo 6.10 Balanceamento de cores. 


Depois que as características tonais de uma imagem 
forem apropriadamente definidas, podemos lidar com quais- 
quer desequilíbrios de cor. Apesar de os desequilíbrios de cor 
poderem ser objetivamente determinados analisando — com 
um espectômetro de cores — uma cor conhecida em uma 
imagem, avaliações visuais precisas são possíveis quando áre- 
as brancas, nas quais os componentes RGB ou CMY(K) deve- 
riam ser iguais, estiverem presentes. Como podemos ver na 
Figura 6.36, os tons de pele também são materiais excelentes 
para avaliações visuais de cores, porque os seres humanos 
têm uma boa percepção da cor da pele. Cores vívidas, como 
objetos de vermelho intenso, são de pouco valor quanto à 
avaliação visual de cores. 


Quando um desequilíbrio de cores é observado, temos 
várias formas de corrigi-lo. É importante saber que, ao ajus- 
tarmos os componentes de cor de uma imagem, toda ação 
afeta seu equilíbrio geral de cores. Isto é, a percepção de 
uma cor é afetada pelas cores que a cercam. Mesmo assim, o 
círculo de cores da Figura 6.32 pode ser utilizado para pre- 
ver como um componente de cor afetará os outros. Com 
base no círculo de cores, por exemplo, a proporção de qual- 
quer cor pode ser aumentada reduzindo a quantidade da 
cor oposta (ou complementar) na imagem. De forma simi- 
lar, ela pode ser aumentada elevando a proporção das duas 
cores imediatamente adjacentes ou reduzindo a porcentagem 
das duas cores adjacentes ao complemento. Suponha, por 
exemplo, que haja uma abundância de magenta em uma 
imagem RGB. Isso pode ser reduzido (1) removendo tanto o 
vermelho quanto o azul (2) ou acrescentando verde. 


A Figura 6.36 mostra as transformações utilizadas para 
corrigir desequilíbrios simples de uma saída CMYK desba- 
lanceada. Observe que as transformações apresentadas são 
as funções necessárias para corrigir as imagens; os inversos 
dessas funções foram utilizados para gerar os desequilíbrios 
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Figura 6.35 Correções de tonalidade em imagens coloridas com média tonalidade, alta tonalidade (clara) e baixa tonalidade (escura). Ajustar 
igualmente os componentes vermelho, verde e azul nem sempre altera significativamente os matizes da imagem. 


de cor associados. Juntas, as imagens são análogas a uma 
impressão colorida com efeito de halo de uma sala escura e 
são úteis como uma ferramenta de referência para identificar 
problemas de impressão colorida. Observe, por exemplo, que 
muito vermelho pode ser justificado por magenta em excesso 
(como a imagem inferior à esquerda) ou ciano insuficiente 
(como mostra a imagem à direita, na segunda linha). 

E 


6.5.5 Processamento de histogramas 


Diferentemente das técnicas interativas de realce 
da seção anterior, as transformações por processamento 
de histogramas no nível de cinza da Seção 3.3 podem ser 
aplicadas a imagens coloridas de forma automática. Lem- 
bre-se de que a equalização de histogramas determina, 
automaticamente, uma transformação que busca produ- 
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Figura 6.36 Correções de balanceamento de cores em imagens coloridas no padrão CMYK. 


zir uma imagem cujos valores de intensidade de um his- 
tograma sejam uniformes. No caso de imagens monocro- 
máticas, demonstrou-se que essa técnica (veja a Figura 
3.20) foi razoavelmente bem-sucedida ao lidar com ima- 
gens de baixa, alta e média tonalidades. Como as imagens 
coloridas são compostas de múltiplos componentes, deve 
ser levada em consideração a adaptação da técnica da es- 


cala de cinza a mais de um componente e/ou histograma. 
Como poderíamos esperar, em geral não é desejável que 
o histograma equalize os componentes de uma imagem 
colorida de maneira independente. Isso resulta em erros 
no arranjo das cores. Uma abordagem mais lógica serja 
dispersar uniformemente as intensidades de cor, deixan- 
do as cores em si (por exemplo, os matizes) inalterados. 
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O exemplo a seguir mostra que o espaço de cores HSI é, 
teoricamente, adequado para esse tipo de técnica. 


Exemplo 6.11  Equalização do histograma no espaço de 


cores HSI. 


A Figura 6.37(a) mostra a imagem colorida de um ga- 
lheteiro com recipientes de tempero cujo componente de 
intensidade engloba todo o intervalo (normalizado) de va- 
lores possíveis, [0, 1]. Como pode ser visto no histograma 
do seu componente de intensidade antes do processamento 
(Figura 6.37(b)), a imagem contém um grande número de 
cores escuras que reduzem o valor da mediana da intensida- 
de (0,36). A equalização do histograma do componente de 
intensidade, sem alterar o matiz e a saturação, resultou na 
imagem mostrada na Figura 6.37(c). Observe que a imagem 
em geral é significativamente mais clara e que vários contor- 
nos e granulações da mesa de madeira, onde está o suporte, 
se tornaram visíveis. A Figura 6.37(b) mostra o histograma 
do componente de intensidade da nova imagem, bem como 
a transformação utilizada para equalizar o histograma do 
componente de intensidade (veja a Equação 3.3-8). 


Figura 6.37 


Apesar de o processo de equalização do histograma 
do componente de intensidade não ter alterado os valores de 
matiz e saturação da imagem, ele afetou a percepção geral 
de cor. Observe, em particular, a perda de vibracidade do 
óleo e do vinagre nos recipientes. A Figura 6.37(d) mostra o re- 
sultado da correção parcial desse problema aumentando o 
componente de saturação da imagem, após a equalização 
do histograma, utilizando a transformação da Figura 6.37(b). 
Esse tipo de ajuste é comum ao trabalhar com o compo- 
nente de intensidade no espaço HSI porque alterações na 
intensidade normalmente afetam a aparência relativa das 
cores em uma imagem. 

E 


6.6 Suavização e aguçamento 


O passo seguinte à transformação de cada pixel de 
uma imagem colorida sem levar em consideração seus 
vizinhos (como na seção anterior) é modificar seu valor 
com base nas características dos pixels ao seu redor. Nesta 
seção, os fundamentos desse tipo de processamento de 
vizinhança são ilustrados no contexto da suavização e do 
aguçamento de imagens coloridas. 


1 


Histograma antes do 
processamento (mediana = 0,36) 


Histograma depois do proces- 
| samento (mediana = 0,5) 


Equalização de histograma (seguido do ajuste de saturação) no espaço de cores HSI. 


6.6.1 Suavização de imagens coloridas 


Com referência à Figura 6.29(a) e à discussão das se- 
ções 3.4 e 3.5, a suavização de imagens em escala de cinza 
pode ser vista como uma operação de filtragem espacial na 
qual os coeficientes da máscara de filtragem têm o mesmo 
valor. À medida que a máscara é deslocada pela imagem 
para ser suavizada, cada pixel é substituído pela média 
dos pixels na vizinhança definida pela máscara. Como po- 
demos ver na Figura 6.29(b), esse conceito é facilmen- 
te estendido ao processamento de imagens coloridas. A 
principal diferença é que, em vez de valores de inten- 
sidade escalar, lidamos com vetores de componente 
(Equação 6.4-2). 

Considerando que S,, expressa, em uma imagem 
colorida RGB, o conjunto de coordenadas que define 
uma vizinhança centralizada em (x, y), a média dos veto- 
res RGB nessa vizinhança é 


Ele yj= L = c(s,t) 


(6.6-1) 
K (s,t)eS 


Segue-se da Equação 6.4-2 e das propriedades de 
adição de vetores que” 
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(x,y) =|— G(s,t) (6.6-2) 


Reconhecemos os componentes desse vetor como 
as imagens escalares que seriam obtidas pela suavização 
independente de cada plano da imagem RGB inicial uti- 
lizando o processamento convencional de vizinhança em 
escala de cinza. Dessa forma, concluímos que o cálculo da 
suavização pela média da vizinhança realizada por plano 
de cor é o mesmo quando a média é realizada utilizando 
o vetor de cores RGB. 


= 
Exemplo 6.12 Suavização de imagens coloridas pela 
média da vizinhança. 


Considere a imagem colorida no padrão RGB da Figura 
6.38(a). As imagens dos componentes vermelho, verde e 
azul são apresentadas nas figuras 6.38(b) a (d). As figuras 


Figura 6.38 


(a) Inagem RGB. (b) Componente vermelho da imagem. (c) Componente verde. (d) Componente azul. 


* Consulte o site do livro para uma breve revisão (em inglês) sobre vetores e matrizes. 
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6.39 (a) a (c) mostram as imagens dos componentes HSI da 
imagem colorida. Com base na discussão do parágrafo ante- 
rior, suavizamos de forma independente as imagens de cada 
componente da imagem RGB (Figura 6.38) utilizando uma 
máscara da média 5 x 5. Depois combinamos as imagens 
individualmente suavizadas para formar a imagem colori- 
da suavizada, como apresentado na Figura 6.40(a). Observe 
que a aparência dessa imagem é o que esperávamos com a 
realização de uma operação de suavização espacial, como 
nos exemplos apresentados na Seção 3.5. 


Na Seção 6.2, observamos que uma importante vanta- 
gem do modelo de cores HSI é que ele desacopla as informa- 
ções de cor e intensidade. Isso faz com que o processo seja 
apropriado para muitas técnicas de processamento em esca- 
la de cinza e sugere que ele seja mais eficiente para suavizar 
os componentes de intensidade da representação HSI da Fi- 
gura 6.39. Para ilustrar os méritos e/ou consequências dessa 
abordagem, a seguir suavizamos apenas o componente de 
intensidade (deixando os componentes de matiz e satu- 
ração inalterados) e, para efeitos de exibição, convertemos 
o resultado processado para uma imagem RGB. A imagem 
colorida suavizada é mostrada na Figura 6.40(b). Observe 
que esse resultado é similar à Figura 6.40(a), mas, como 
podemos ver na imagem da diferença mostrada na Figura 
6.40(c), as duas imagens suavizadas não são idênticas. Isso 
ocorre porque, na Figura 6.40(a), a cor de cada pixel é a cor 
média dos pixels da vizinhança. Por outro lado, ao suavizar 
apenas a imagem do componente de intensidade na Figura 
6.40(b), o matiz e a saturação de cada pixel não foram afeta- 
dos e, dessa forma, as cores dos pixels não foram alteradas. 
Nota-se, por meio dessa observação, que a diferença entre 
as duas abordagens de suavização seria mais acentuada se as 
dimensões do filtro da média fossem aumentadas. 

= 


6.6.2 Aguçamento de imagens coloridas 


Nesta seção, analisaremos o aguçamento das ima- 
gens utilizando o laplaciano (veja a Seção 3.6.2). Com 
base na análise de vetores, sabemos que o laplaciano de 
um vetor é definido como um vetor cujos componentes 
são iguais ao laplaciano dos componentes escalares in- 


dividuais do vetor de saída. No sistema de cores RGB, o 
laplaciano do vetor c na Equação 6.4-2 é 


VÊR(x,)) 
V? fex, y)] =|V7G(x,y) 
VÍB(x,y) 


(6.6-3) 


que, como na seção anterior, nos informa que podemos cal- 
cular o laplaciano de uma imagem colorida calculando se- 
paradamente o laplaciano de cada componente de imagem. 


= 
Exemplo 6.13 Aguçamento utilizando o laplaciano. 


A Figura 6.41 (a) foi obtida utilizando a Equação 3.6-7 
e a máscara da Figura 3.37(c) para calcular o laplaciano dos 
componentes de imagem RGB da Figura 6.38. Esses resul- 
tados foram combinados para produzir o resultado da ima- 
gem colorida aguçada. A Figura 6.41 (b) mostra uma imagem 
aguçada de forma similar com base nos componentes HSI da 
Figura 6.39. Esse resultado foi gerado pela combinação do 
laplaciano com o componente de intensidade e os compo- 
nentes inalterados de matiz e saturação. A diferença entre as 
imagens realçada RGB e HSI é mostrada na Figura 6.41(c). 
A razão das discrepâncias entre as duas imagens é explicada 
no Exemplo 6.12. 
= 


6.7 Segmentação de imagens baseada 
na cor 


A segmentação é um processo que particiona uma 
imagem em regiões. Apesar de a segmentação ser o tópi- 
co do Capítulo 10, analisaremos rapidamente a segmen- 
tação de cores aqui para fins de continuidade. Você não 
terá dificuldades em entender a análise. 


6.7.1 Segmentação no espaço de cores HSI 


Se desejarmos segmentar uma imagem baseada em 
cores e, além disso, quisermos realizar o processo em pla- 


Figura 6.39 Componentes HSI da imagem colorida RGB da Figura 6.38(a). (a) Matiz. (b) Saturação. (c) Intensidade. 


Figura 6.40 
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(a) Suavização de imagem com uma máscara de média 5 x 5. (a) Resultado do processamento de cada componente de imagem RGB. 


(b) Resultado do processamento do componente de intensidade da imagem HSI e sua conversão para RGB. (c) Diferença entre os dois resultados. 


nos individuais, é natural pensarmos primeiro no espaço 
de cores HSI, pois a cor é convenientemente representada 
na imagem do matiz. Normalmente, a saturação é utilizada 
como uma máscara para isolar outras regiões de interesse 
na imagem do matiz. A imagem do componente de inten- 
sidade é utilizada com menos frequência para a segmen- 
tação de imagens coloridas, pois não possui informações 
de cor. O exemplo a seguir expressa muito bem como a 
segmentação é realizada utilizando o espaço de cores HSI. 


= 
Exemplo 6.14 Segmentação no espaço de cores HSI. 


Suponha que o nosso interesse seja segmentar a região 
avermelhada na parte inferior esquerda da imagem apre- 
sentada na Figura 6.42 (a). Apesar de ser gerada por métodos 
de pseudocores, essa imagem pode ser processada (segmen- 
tada) como uma imagem colorida sem perda de generali- 
dade. As figuras 6.42(b) a (d) apresentam as imagens dos 
componentes HSI. Observe, comparando as figuras 6.42(a) 
e (b), que a região na qual estamos interessados tem valores 
relativamente altos de matiz, indicando que as cores estão 
no lado azul-magenta do vermelho (veja a Figura 6.13). A 
Figura 6.42(e) mostra uma máscara binária gerada pela bi- 
narização da imagem de saturação com um limiar igual a 


Figura 6.41 


10% do maior valor dessa imagem. No processo, atribuiu-se 
o valor 1 (branco) a todo pixel cujo valor seja maior que o 
limiar. A todos os outros foi atribuído o valor O (preto). 


A Figura 6.42(f) apresenta o produto da máscara com 
a imagem do matiz, e a Figura 6.42(g) é o histograma da 
imagem resultante desse produto (observe que a escala 
de cinza está no intervalo [0, 1]). Vemos no histograma que os 
altos valores (que são os valores de interesse) estão agru- 
pados na extremidade superior da escala de cinza, perto de 
1,0. O resultado da binarização da imagem do produto com 
o valor de limiar 0,9 resultou na imagem binária mostrada na 
Figura 6.42(h). A posição espacial dos pontos brancos des- 
sa imagem identificam os pontos na imagem original que 
apresentam o matiz avermelhado que é o nosso objeto 
de interesse. Essa segmentação esteve longe de ser perfei- 
ta, pois vemos pontos na imagem original que certamente 
apresentam um matiz avermelhado, mas que não foram 
identificados no processo de segmentação. No entanto, 
pode ser determinado por experimentação que as regiões 
mostradas em branco na Figura 6.42(h) são o melhor que 
esse método pode fazer na identificação dos componentes 
avermelhados da imagem original. O método de segmenta- 
ção discutido na próxima seção é capaz de gerar resultados 
consideravelmente melhores. 
= 


Aguçamento de imagem utilizando o Laplaciano. (a) Resultado do processamento de cada canal RGB. (a) Resultado do processa- 


mento do componente de intensidade HSI e sua conversão para RGB. (c) Diferença entre os dois resultados. 
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Figura 6.42 Segmentação de imagem no espaço HSI. (a) Original. (b) Matiz. (c) Saturação. (d) Intensidade. (e) Máscara de saturação binária 
(preto = 0). (f) Produto de (b) por (e). (g) Histograma de (f). (h) Segmentação dos componentes vermelhos em (a). 


6.7.2 Segmentação no espaço de vetores RGB 


Apesar de, como mencionado várias vezes neste 
capítulo, ser mais intuitivo trabalhar no espaço HSI, a 
segmentação é uma área na qual os melhores resultados 
geralmente são obtidos por meio da utilização dos veto- 
res de cores RGB. O método é direto. Suponha que o in- 
tuito seja segmentar objetos de uma determinada faixa 
de cores em uma imagem RGB. Dado como amostra um 


conjunto de cores representativas das cores de interesse, 
obtemos como estimativa o valor ‘médio’ da cor que de- 
sejamos segmentar. Para simplificação, vamos denominar 
como a o vetor RGB que expressa a cor média. O objetivo 
da segmentação é classificar os pixels RGB de uma dada 
imagem como pertencentes ou não a um intervalo es- 
pecífico. Para realizar essa comparação, é necessário ter 
uma medida de semelhança. Uma das medidas mais simples 


é a distância euclidiana. Considere z um ponto arbitrário 
no espaço RGB. Dizemos que z é similar a a se a distância 
entre eles for menor que um limiar especificado, D, A 
distância euclidiana entre z e a é dada por 


D(z,a)= Iz — al 


ab te= ay Hea PE (6.7-1) 


na qual os subscritos R, G e B indicam os componentes 
RGB dos vetores a e z. O conjunto de pontos z que satis- 
faz D(z, a) < D, forma uma esfera sólida de raio D,, como 
ilustra a Figura 6.43(a). Os pontos contidos na esfera sa- 
tisfazem o critério especificado de cor; os pontos fora da 
esfera, não. A codificação desses dois conjuntos de pontos 
na imagem com, digamos, preto e branco, produz uma 
imagem segmentada binária. 


Uma generalização útil da Equação 6.7-1 é uma 
medida de distância na forma 


(6.7-2) 


na qual C é a matriz de covariância” das representativas 
amostras de cor que desejamos segmentar. O conjunto de 
pontos z que satisfaz D(z, a) < D, descreve um elipsoide só- 
lido (Figura 6.43(b)) com a importante propriedade de que 
seus eixos principais são orientados na direção da máxima 
dispersão dos dados. Quando C = I, a matriz de identida- 
de 3 x 3 da Equação 6.7-2 se reduz à Equação 6.7-1. O 
processo de segmentação, neste caso, é idêntico ao descri- 
to no parágrafo anterior. 


Em virtude de as distâncias serem positivas e mo- 
notônicas, podemos trabalhar com a distância ao quadra- 
do, evitando, dessa forma, cálculos de raiz quadrada. No 
entanto, mesmo sem o cálculo das raízes quadradas, a 
implementação das equações 6.7-1 ou 6.7-2 em imagens 


a b 


R R 
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reais apresenta um alto custo computacional. Um meio- 
-termo seria, em vez de uma forma esférica, utilizar um 
cubo para delimitar o conjunto de cores a serem segmen- 
tadas, como ilustra a Figura 6.43(c). Nessa metodologia, 
o cubo é centralizado em a e suas dimensões ao longo de 
cada um dos eixos de cor são escolhidas em proporção ao 
desvio padrão das amostras ao longo de cada um dos ei- 
xos. O cálculo dos desvios padrão é realizado apenas uma 
vez, utilizando dados da amostra de cores. 


Dada uma cor arbitrária, ela é segmentada se esti- 
ver na superfície ou dentro do cubo, como no caso das 
formulações de distância. No entanto, determinar se uma 
cor está dentro ou fora de um cubo é muito mais sim- 
ples em termos computacionais do que determinar se ela 
está dentro ou fora de um delimitador esférico ou elípti- 
co. Observe que a discussão que acabamos de apresentar 
é uma generalização do método apresentado na Seção 
6.5.3 em conexão com o fatiamento de cores. 


= 
Exemplo 6.15 Segmentação de imagens coloridas no 
espaço RGB. 


A região retangular representada na Figura 6.44(a) con- 
tém amostras de cores avermelhadas que desejamos seg- 
mentar na imagem colorida. Esse é o mesmo problema que 
analisamos no Exemplo 6.14 utilizando o matiz, mas aqui 
abordamos o problema utilizando os vetores de cores RGB. 
O método utilizado consiste em calcular o vetor médio a uti- 
lizando os pontos de cor contidos no do retângulo da Figura 
6.44(a). Em seguida, calculou-se o desvio padrão dos compo- 
nentes vermelho, verde e azul dessas amostras. Um cubo foi 
centralizado em a, e as dimensões ao longo de cada um dos 
eixos RGB foram escolhidas como 1,25 multiplicado pelo 
desvio padrão dos dados ao longo dos eixos corresponden- 
tes. Por exemplo, tomemos o, expressando o desvio padrão 
dos componentes vermelhos dos pixels da amostra. Então, 
as dimensões do cubo ao longo do eixo R vão de (a, — 1,25 
op) até (a, + 1,25 0,), no qual a, indica o valor do componente 


H 


R 


Figura 6.43 Três abordagens para delimitar regiões de dados para a segmentação de vetores RGB. 


* O cálculo da matriz de covariância de um conjunto de amostras vetoriais é discutido na Seção 11.4. 
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Figura 6.44 Segmentação no espaço de cores RGB. (a) Imagem 
original com as cores de interesse delimitadas por um retângulo. (b) 
Resultado da segmentação no espaço de cores RGB. Compare com a 
Figura 6.42 (h). 


vermelho de a. O resultado da codificação de todos os pixels 
da imagem colorida como branco, se o ponto estiver contido 
no cubo, e preto se estiver fora, é apresentado na Figura 
6.44 (b). Observe como a região segmentada foi generaliza- 
da a partir das amostras de cor delimitadas pelo retângulo. 
De fato, comparando as figuras 6.44(a) e 6.42(h), vemos 
que a segmentação utilizando o espaço de cores RGB gerou 
resultados muito mais precisos, pois segmentam com mais 
fidelidade o que poderíamos definir como pontos ‘averme- 
lhados” na imagem colorida original. 

= 


6.7.3 Detecção de bordas em imagens coloridas 


Como veremos no Capítulo 10, a detecção de bor- 
das constitui uma importante ferramenta para a segmen- 
tação de imagens. Nesta seção, nos concentraremos na 
questão do cálculo de borda em uma imagem individual 
(tons de cinza, por exemplo) versus o cálculo de bordas 


em uma imagem colorida. Os detalhes da segmentação 
baseada em bordas são apresentados na Seção 10.2. 


A detecção de bordas por operadores de gradien- 
te foi apresentada na Seção 3.6.4, com o aguçamento de 
imagens. Infelizmente, o gradiente discutido na Seção 3.6.4 
não é definido para valores vetoriais. Dessa forma, pode- 
mos definir que calcular o gradiente em imagens indi- 
viduais e depois utilizar os resultados para formar uma 
imagem colorida levará a resultados errôneos. Um exem- 
plo simples ajudará a ilustrar os motivos que nos levaram 
a essa afirmação. 


Considere as duas imagens coloridas M x N (M ím- 
par) apresentadas nas figuras 6.45(d) e (h), compostas 
pelos três componentes de imagem apresentados nas 
figuras 6.45(a) a (c) e (e) a (g), respectivamente. Se, por 
exemplo, calcularmos a imagem gradiente de cada um 
dos componentes de imagem (veja a Equação 3.6-11) e 
combinarmos os resultados para formar as correspon- 
dentes imagens gradientes coloridas no padrão RGB, o 
valor do gradiente no ponto [(M + 1)/2, (M + 1)/2] seria 
o mesmo nos dois casos. Intuitivamente, esperamos que o 
gradiente nesse ponto seja mais forte para a imagem da Fi- 
gura 6.45(d), uma vez que nesta imagem as bordas das ima- 
gens R, G e B estão na mesma direção, diferentemente da 
imagem apresentada na Figura 6.45(h), na qual apenas 
duas das bordas estão na mesma direção. Dessa forma, 
vemos, com esse simples exemplo, que o processamento 
da imagem colorida a partir do processamento individual 
dos seus componentes de imagem pode gerar resultados 
errôneos. Se limitarmos o problema à detecção de bordas, 
a abordagem do componente individual normalmente 
gerará resultados aceitáveis. Entretanto, se a precisão for 
um requisito, então precisaremos de uma nova definição 
aplicável ao gradiente dos valores vetoriais. Analisaremos 
a seguir uma solução proposta por Di Zenzo (1986). 


O problema em questão é definir o gradiente (mag- 
nitude e direção) do vetor c apresentado na Equação 6.4-2 
em qualquer ponto (x, y). Como acabamos de mencionar, 
o gradiente que estudamos na Seção 3.6.4 é aplicável a 
uma função escalar f(x, y); ele não é aplicável a funções 
vetoriais. Vejamos a seguir uma das várias formas nas 
quais podemos estender o conceito de gradiente a fun- 
ções vetoriais. Lembre-se que, para uma função escalar 
fix, y), o gradiente é um vetor que aponta na direção da 
máxima taxa de variação de fnas coordenadas (x, y). 

Tendo r, g e b como vetores unitários ao longo dos 
eixos R, G e B do espaço de cores RGB (Figura 6.7), defi- 
nimos os vetores 


E Ñ 
E EB 
Figura 6.45 
imagem colorida RGB resultante. 


u= b 
Ox Ox Ox (6.7-3) 
e 
OR OG OB 
v= r4 | b 
dy dy oy (6.7-4) 


Temos as quantidades g,» 9, € 9, definidas em ter- 
X yy xy 
mos do produto escalar desses vetores, como se segue: 


2 2 2 
g =u- u=uu= a l T l Ea (6.7-5) 
si Ox Ox Ox 
2 2 2 
j,, =V'V=Viv= en Je l = (6.7-6) 
E dy| dy} [əy 
e 
Ig = uv=u'v= 
OROR | GAG , ƏB ðB Fe 


Ox Oy Ox Oy Ox Oy 


Tenha em mente que R, G e Be, em consequência, 
os g's, são funções de x e y. Utilizando essa notação, pode- 
-se demonstrar [Di Zenzo (1986)] que a direção da taxa 
máxima de variação de c(x, y) é dada pelo ângulo 


29, 
EM 


e que o valor da taxa de variação em (x, y), na direção de 
9(x, y), é dado por 


A(x, 9) = tg (6.7-8) 


2 
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B E 
E 


(a)-(c) Componentes de imagem A, Ge Be (d) imagem resultante de cores RGB. (el-(g) Componentes de imagem A, Ge Be (h) 


1 


nanl | (6.7-9) 


Tendo em vista que tg(a) = tg(a + 7), se 0, for uma 
solução para a Equação 6.7-8, o mesmo se aplica a 0, + 7/2. 
Além disso, F, = F,, „ de forma que F deve ser calculado 
apenas para valores de 0 no intervalo semiaberto [0, 7). 
O fato de a Equação 6.7-8 proporcionar dois valores com 
90º significa que essa equação associa a cada ponto (x, y) 
um par de direções ortogonais. Acompanhando uma dessas 
direções F temos o máximo, e seu mínimo acompanha a 
outra direção. A dedução desses resultados é bastante longa 
e detalhá-la aqui não nos trará ganhos significativos em 
termos do objetivo fundamental da nossa discussão. Para 
mais detalhes, consulte o artigo de Di Zenzo (1986). Os deri- 
vativos parciais necessários para implementar as equações 
6.7-5 a 6.7-7 podem ser calculados utilizando, por exem- 
plo, os operadores de Sobel discutidos na Seção 3.6.4. 


(E a O a Iy) 
cos20(x, y) + 29,,sen20(x, y) 


= 
Exemplo 6.16 Detecção de bordas no espaço vetorial. 


A Figura 6.46(b) é o gradiente da imagem apresentada 
na Figura 6.46(a), obtida utilizando o método vetorial que 
acabamos de analisar. A Figura 6.46(c) mostra a imagem 
obtida pelo cálculo do gradiente de cada componente de 
imagem RGB e a formação de uma imagem gradiente com- 
posta a partir da adição dos valores correspondentes dos três 
componentes de imagem em cada coordenada (x, y). Os de- 
talhes da borda da imagem gradiente vetorial são mais com- 
pletos do que os detalhes na imagem gradiente composta a 
partir dos gradientes de cada componente (Figura 6.46(c)); 
por exemplo, veja os detalhes ao redor do olho direito da 
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mulher. A imagem da Figura 6.46(d) mostra a diferença 
entre as duas imagens gradientes. É importante notar que 
as duas técnicas geraram resultados razoáveis. Só é possível 
determinar se os detalhes adicionais da Figura 6.46(b) com- 
pensam o custo computacional (em oposição à implemen- 
tação dos operadores de Sobel, que utilizamos para gerar o 
gradiente dos planos individuais) depois de avaliarmos os 
requisitos do problema em questão. A Figura 6.47 mostra os 
gradientes dos três componentes de imagem, que, quando 
adicionados e ajustados produziram a Figura 6.46(c). 

a 


6.8 Ruido em imagens coloridas 


Os modelos de ruído que apresentamos na Seção 5.2 
são aplicáveis às imagens coloridas. Normalmente, o conteú- 
do de ruído de uma imagem colorida apresenta as mesmas 
características para cada canal de cor, mas também é possí- 
vel que os canais de cor sejam afetados de modo diferente 
pelo ruído. Uma possibilidade é o mau funcionamento de 
um componente eletrônico responsável pela captura das in- 
formações de um determinado canal. No entanto, diferentes 
níveis de ruído têm mais chances de serem produzidos por 
diferenças na intensidade relativa de iluminação disponível 


em cada um dos canais de cor. Por exemplo, a utilização 
de um filtro rejeita banda para o vermelho em uma câmera 
CCD reduzirá a intensidade da iluminação disponível para o 
sensor vermelho. Os sensores CCD apresentam mais ruídos 
em níveis mais baixos de iluminação, de forma que, nessa 
situação, o componente vermelho resultante de uma ima- 
gem RGB tenderia a apresentar mais ruído que os outros 
dois componentes de imagem. 


E 

Exemplo 6.17 Ilustração dos efeitos da conversão de 
imagens RGB ruidosas para o modelo de 
cores HSI. 


Neste exemplo, faremos uma breve análise do ruído 
em imagens coloridas e como ele é transmitido no pro- 
cesso de conversão de um modelo de cores para o outro. As 
figuras 6.48 (a) a (c) mostram os três planos de cor de uma ima- 
gem RGB corrompida por ruído gaussiano, e a Figura 6.48(d) é 
a imagem RGB composta. Observe que um ruído de granulação 
fina como esse tende a ser menos visualmente observável 
em uma imagem colorida do que em uma imagem mono- 
cromática. As figuras 6.49(a) a (c) mostram o resultado da 
conversão da imagem RGB apresentada na Figura 6.48 (d) 


Figura 6.46 
adicionados. (d) Diferença entre (b) e (c). 


(a) Imagem RGB. (b) Gradiente calculado no espaço vetorial de cores RGB. (c) Gradientes calculados por imagem individual e depois 


Figura 6.47 
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Imagens gradientes dos componentes da imagem colorida da Figura 6.46. (a) Componente vermelho, (b) componente verde e (c) 


componente azul. Essas três imagens combinadas produzem a imagem da Figura 6.46(c). 


para o padrão HSI. Compare esses resultados com os com- 
ponentes HSI da imagem original (Figura 6.39) e observe 
como as imagens ruidosas dos componentes do matiz e da 
saturação são significativamente degradadas. Isso se deve 
à não linearidade das operações de cosseno e mínimo das 
equações 6.2-2 e 6.2-3, respectivamente. Por outro lado, 
o ruído presente no componente de intensidade da Figura 
6.49(c) é ligeiramente mais suave do que o ruído presente 


em qualquer uma das três imagens dos componentes RGB. 
Isso se deve ao fato de o componente de intensidade ser 
obtido por meio do cálculo da média aritmética dos compo- 
nentes RGB, como indicado na Equação 6.2-4. (Lembre-se 
que, como dito na discussão da Seção 2.6.3, o cálculo da 
média da imagem reduz o ruído aleatório.) 


Naqueles casos em que apenas um canal RGB for afe- 
tado pelo ruído, a conversão ao HSI dissemina o ruído em 


Figura 6.48 
Imagem RGB resultante. [Compare (d) com a Figura 6.46(a)]. 


(a) a (c) Imagens dos componentes vermelho, verde e azul corrompidas por ruído gaussiano aditivo de média O e variância 800. (d) 
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Figura 6.49 Componentes HS! da imagem colorida com ruído da Figura 6.48(d). (a) Matiz. (b) Saturação. (c) Intensidade. 


todos os seus componentes. A Figura 6.50 mostra um exem- 
plo disso. Na Figura 6.50(a), é apresentada uma imagem RGB 
em que o componente verde é corrompido pelo ruído sal e 
pimenta, no qual a probabilidade de ocorrência do ruído é 
de 0,05. As imagens dos componentes HSI apresentadas nas 
figuras 6.50(b) a (d) mostram claramente como o ruído se 
espalha do canal verde do padrão RGB para todos os compo- 
nentes do padrão HSI. Isso, é claro, não é nenhuma surpresa 


Figura 6.50 
ponente de saturação. (d) Componente de intensidade. 


pois, no cálculo dos componentes HSI, são utilizados todos 
os componentes RGB, como mostramos na Seção 6.2.3. 
E 


Como visto nos processos discutidos até o momen- 
to, a filtragem de imagens coloridas, a depender do obje- 
tivo do processamento, pode ser realizada tanto por meio 
dos componentes individuais como diretamente no es- 


(a) Imagem RGB com o componente verde corrompido pelo ruído sal e pimenta. (b) Componente do matiz da imagem HSI. (c) Com- 


paço vetorial de cores. Por exemplo, a redução de ruído 
utilizando um filtro da média é o processo discutido na 
Seção 6.6.1, que agora gera o mesmo resultado tanto no 
processamento do espaço vetorial como no processamen- 
to independente dos componentes de imagem. Outros 
filtros, contudo, não podem ser formulados dessa forma. 
Exemplos incluem a classe dos filtros de estatística de or- 
dem discutidos na Seção 5.3.2. Por exemplo, para imple- 
mentar o filtro da mediana no espaço vetorial de cores, 
é necessário encontrar um esquema para ordenar os ve- 
tores, de forma que a mediana faça sentido. Apesar de se 
tratar de um processo simples por lidar com escalares, o 
processo se torna consideravelmente mais complexo ao 
lidar com vetores. Uma discussão sobre ordenação de ve- 
tores está além do escopo da presente discussão, mas o 
livro de Plataniotis e Venetsanopoulos (2000) é uma boa 
referência para saber mais sobre a ordenação de vetores 
e alguns dos filtros baseados no conceito de ordenação. 


6.9 Compressão de imagens coloridas 


Como o número de bits necessários para represen- 
tar a cor é normalmente de três a quatro vezes maior que 
o número de bits empregado na representação de nível 
de cinza, a compressão de dados exerce um papel central no 
armazenamento e transmissão de imagens coloridas. No 
que se refere a imagens RGB, CMY(K) e HSI das seções 
anteriores, os dados que são objetos de qualquer com- 
pressão são os componentes de cada pixel colorido (por 
exemplo, os componentes vermelho, verde e azul dos pi- 
xels de uma imagem RGB); eles são os meios pelos quais 
as informações de cores são transmitidas. A compressão é 0 
processo de reduzir ou eliminar dados redundantes e/ou 
irrelevantes. Apesar de a compressão ser o tema do Capí- 
tulo 8, ilustraremos rapidamente o conceito no exemplo 
a seguir utilizando uma imagem colorida. 


= 
Exemplo 6.18 Um exemplo sobre compressão de 
imagens coloridas. 


A Figura 6.51 (a) mostra uma imagem colorida, no pa- 
drão RGB de 24 bits, de uma íris na qual são utilizados 8 bits 
para representar cada um dos seus componentes (vermelho, 
verde e azul). A Figura 6.51(b) foi reconstruída a partir de 
uma versão comprimida da imagem apresentada em (a) e, 
de fato, é o resultado de um processo de compressão e subse- 
quentemente descompressão da imagem original (a). Apesar 
de a imagem comprimida não poder ser diretamente exibida 
— ela deve ser descomprimida antes de servir como dado de 
entrada para um monitor colorido —, a imagem comprimida 
contém apenas 1 bit de dados (e, dessa forma, 1 bit de arma- 
zenamento) para cada 230 bits de dados na imagem original. 
Presumindo que a imagem comprimida possa ser transmitida 
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Figura 6.51 


Compressão de imagem colorida. (a) Imagem original 
RGB. (b) Resultado da compressão e descompressão da imagem apre- 
sentada em (a). 


pela Internet em, digamos, 1 minuto, a transmissão da ima- 
gem original demandaria quase 4 horas. Naturalmente, os 
dados transmitidos precisariam ser descomprimidos para a vi- 
sualização, mas a descompressão pode ser realizada em ques- 
tão de segundos. O algoritmo de compressão JPEG 2000 uti- 
lizado para gerar a Figura 6.51 (b) é um padrão recentemente 
introduzido e descrito em detalhes na Seção 8.2.10. Observe 
que a imagem que passou pelo processo de compressão e des- 
compressão está ligeiramente borrada. Essa é uma caracteris- 
tica de muitas técnicas de compressão com perda; que pode ser 
reduzida ou eliminada alterando o nível de compressão. 

a 


Resumo 


O conteúdo deste capítulo é uma introdução ao pro- 
cessamento de imagens coloridas e cobre tópicos selecio- 
nados para proporcionar bases sólidas sobre as técnicas 
utilizadas nesse ramo do processamento de imagens. Nosso 
tratamento dos fundamentos de cores e modelos de cores 
foi elaborado para servir como material de base para uma 
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ampla área em termos de escopo técnico e áreas de aplica- 
ção. Mais especificamente, nos concentramos em mode- 
los de cores que acreditamos ser não só úteis no proces- 
samento digital de imagens, mas também proporcionam 
as ferramentas necessárias para estudos complementares 
nessa área do processamento de imagens. A análise do 
processamento de imagens coloridas ou em pseudocores 
com base em uma imagem individual relaciona-se com 
técnicas que apresentamos em detalhes nos capítulos 3 a 5. 


O conteúdo sobre espaços vetoriais de cores se baseia 
em métodos que estudamos anteriormente e salienta algu- 
mas importantes diferenças entre o processamento de ima- 
gens em escala de cinza e coloridas. Em termos de técni- 
cas, as áreas de processamento dos vetores coloridos são 
numerosas e incluem processos como filtro de mediana e 
outros filtros de ordem, filtros adaptativos e morfológicos, 
restauração de imagens, compressão de imagens e mui- 
tas outras. Esses processos não são equivalentes ao pro- 
cessamento de imagens coloridas que são realizados indivi- 
dualmente nos componentes de imagem de uma imagem 
colorida. As referências apresentadas na seção a seguir 
proporcionam sugestões para outros resultados na área. 


Nosso tratamento do ruído nas imagens coloridas tam- 
bém observa a natureza vetorial do problema, além do fato 
de que as rotineiras transformações entre os espaços de cor 
trazem implicações na questão de como reduzir o ruído des- 
sas imagens. Em alguns casos, a filtragem de ruídos pode ser 
realizada por imagem, mas outros casos, como a filtragem 
da mediana, requerem um tratamento especial para refletir 
o fato de que os pixels coloridos são quantidades vetoriais, 
como mencionamos no parágrafo anterior. 


Apesar de a segmentação ser o tópico do Capítulo 10 
e a compressão de dados de imagens ser o tópico do Ca- 
pítulo 8, ganhamos a vantagem da continuidade apresen- 
tando-os aqui no contexto do processamento de imagens 
coloridas. Como ficará claro nas discussões subsequentes, 
muitas das técnicas desenvolvidas naqueles capítulos serão 
aplicáveis às discussões deste capítulo. 


Referências e leituras complementares 


Para uma abrangente referência sobre a ciência das 
cores, veja Malacara (2001). Sobre a fisiologia das cores, 
veja Gegenfurtner e Sharpe (1999). Essas duas referén- 
cias, bem como os primeiros livros de Walsh (1958) e 
Kiver (1965), proporcionam um amplo material comple- 
mentar para a discussão da Seção 6.1. Para leituras adi- 
cionais sobre os modelos de cores (Seção 6.2), veja Fortner 
e Meyer (1997), Poynton (1996) e Fairchild (1998). Para 
uma dedução detalhada das equações do modelo HSI da 
Seção 6.2.3, veja o artigo de Smith (1978) ou consulte 
o site do livro. O tópico das pseudocores (Seção 6.3) é 


estreitamente relacionado à área de visualização de da- 
dos. O texto de Wolff e Yaeger (1993) constitui uma boa 
referência básica sobre a utilização das pseudocores. O 
livro de Thorell e Smith (1990) também pode ser de inte- 
resse. Para uma discussão sobre a representação vetorial 
dos sinais de cor (Seção 6.4), veja Plataniotis e Venetsa- 
nopoulos (2000). 


As referências sugeridas para a Seção 6.5 são Ben- 
son (1985), Robertson (1977) e CIE (1978). Veja também 
o artigo clássico de MacAdam (1942). O material sobre 
filtragem de imagens coloridas (Seção 6.6) se baseia na 
formulação vetorial apresentada na Seção 6.4 e em nos- 
sa análise da filtragem espacial apresentada no Capítulo 
3. A segmentação de imagens coloridas (Seção 6.7) tem 
sido foco de muita atenção nos últimos dez anos. Os ar- 
tigos de Liu e Yang (1994) e Shafarenko et al. (1998) são 
representativos do trabalho nessa área. Uma edição espe- 
cial da IEEE Transactions on Image Processing (1997) tam- 
bém constitui leitura interessante. A análise da detecção 
de bordas de cores (Seção 6.7.3) se baseou em Di Zenzo 
(1986). O livro de Plataniotis e Venetsanopoulos (2000) 
apresenta um bom resumo das várias abordagens sobre 
a segmentação de imagens coloridas. A Seção 6.8 se ba- 
seia nos modelos de ruído apresentados na Seção 5.2. As 
referências sobre compressão de imagens (Seção 6.9) são 
apresentadas no final do Capítulo 8. Para detalhes sobre a 
implementação de aplicativos computacionais de muitas das 
técnicas discutidas neste capítulo, veja Gonzalez, Woods 
e Eddins (2004). 


Exercícios” 


6.1. Calcule as porcentagens de luz vermelha (X), verde 
(Y) e azul (Z) necessárias para gerar o ponto indicado 
como ‘branco quente” na Figura 6.5. 


* 6.2. Considere quaisquer duas cores válidas c, e c, com 
coordenadas (x,, y,) € (x, y,) no diagrama de croma- 
ticidade da Figura 6.5. Deduza a(s) expressão(ões) 
geral(is) para calcular as porcentagens relativas das 
cores c, e c, necessárias para compor uma determina- 
da cor que sabemos estar posicionada no segmento de 
reta que une c ac. 


6.3. Considere quaisquer três cores válidas c, c ec, 
com coordenadas (x, y) (X, ¥,) e (x, y,) no dia- 
grama de cromaticidade da Figura 6.5. Deduza a(s) 
expressão (ões) geral(is) para calcular as porcentagens 
relativas das cores c,, c, e c, necessárias para compor 
uma determinada cor que sabemos estar posicionada 
dentro do triângulo cujos vértices são as coordenadas 
cote. 


* Soluções detalhadas dos exercícios marcados com um asterisco 
podem ser encontradas no site do livro. O site também contém 
projetos sugeridos com base no conteúdo deste capítulo. 


* 6.4. Em uma aplicação de uma linha de montagem au- 
tomatizada, três classes de peças devem ter as cores 
codificadas para simplificar a detecção. No entanto, 
só uma câmera de TV monocromática foi disponi- 
bilizada para adquirir as imagens digitais. Proponha 
uma técnica, utilizando essa câmera, para detectar as 
três diferentes cores. 


6.5. Em uma simples imagem RGB, os componentes de 
imagem R, G e B têm os perfis de intensidade hori- 
zontal mostrados nos diagramas a seguir. Qual cor 
uma pessoa veria na coluna do meio dessa imagem? 


1.0 
8 
U 
0.5 Vermelho 
0 N/2 N-1 
Posição 
TO l=sssasstade 
3 
U 
0.5 


0 N/2 N-1 
Posição 


Cor 


Posição 


* 6.6. Esboce como os componentes RGB da imagem a se- 
guir seriam exibidos em um monitor monocromáti- 
co. Todas as cores estão no máximo de intensidade e 
saturação. Ao solucionar este problema, considere o 
contorno cinza médio como parte da imagem. 
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6.7. Quantos diferentes tons de cinza existem em um sis- 
tema RGB de cores no qual cada imagem RGB é uma 
imagem com 8 bits de resolução de níveis de cinza? 


6.8. Considere o cubo de cores RGB mostrado na Figura 
6.8 e responda as questões a seguir: 


*(a) Descreva como os níveis de cinza variam nas 
imagens primárias R, G e B que compõem a face 
frontal do cubo de cores. 


(b) Suponha que cada cor do cubo RGB seja substituí- 
da por sua cor CMY. Esse novo cubo é exibido em 
um monitor RGB. Indique o nome das cores dos 
oito vértices do novo cubo que você veria na tela. 


(c) O que é possível afirmar sobre as cores nas bordas 
do cubo de cores RGB em relação à saturação? 


6.9. (a) Esboce os componentes CMY da imagem do Exer- 
cício 6.6 na forma como eles seriam exibidos em 
um monitor monocromático. 


(b) Se os componentes CMY esboçados em (a) forem 
alimentados nas entradas vermelha, verde e azul 
de um monitor colorido, respectivamente, qual 
seria a imagem resultante? 


*6.10. Deduza a função de mapeamento de intensidade 
CMY da Equação 6.5-6 a partir de seu componente 
RGB correspondente na Equação 6.5-5. 


6.11. Considere o arranjo de 216 cores seguras apresen- 
tado na Figura 6.10(a). Indique cada célula por sua 
designação (linha, coluna), de forma que a célula su- 
perior esquerda seja (1, 1) e a célula inferior direita 
seja (12, 18). Em quais células você encontrará: 


(a) O verde mais puro? 
(b) O azul mais puro? 
*6.12. Esboce como os componentes HSI da imagem apre- 


sentada no Exercício 6.6 seriam exibidos em um mo- 
nitor monocromático. 


6.13. Proponha um método para gerar uma faixa de cores 
similar à exibida na seção ampliada (Figura 6.2) Es- 
pectro Visível. Observe que a faixa começa em roxo es- 
curo à esquerda e vai se aproximando do vermelho 
puro à direita. (Dica: Utilize o modelo HSI de cores.) 


*6.14. Proponha um método para gerar uma versão colori- 
da da imagem apresentada na forma de um diagrama 
na Figura 6.13(c). Elabore sua resposta na forma de um 
fluxograma. Presuma que o valor da intensidade seja 
fixo e conhecido. (Dica: Utilize o modelo HSI de cores.) 


6.15. Considere a imagem a seguir composta de quadrados 
coloridos com cor sólida. Para analisar sua resposta, 
escolha uma escala de cinza com oito tons, de O a 
7, em que O é preto e 7 é branco. Suponha que a 
imagem seja convertida no espaço de cores HSI. Ao 
responder as questões a seguir, utilize números espe- 
cíficos para os tons de cinza se fizer sentido utilizar 
números. Se não, as relações ‘igual a’, ‘mais claro 
que” ou “mais escuro que” são suficientes. Se você 
não puder atribuir um nível de cinza específico ou 
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uma dessas relações à imagem que estiver analisan- 
do, explique por quê. 

(a) Esboce a imagem do matiz. 

(b) Esboce a imagem da saturação. 

(c) Esboce a imagem da intensidade. 


Vermelho Verde Azul 
Magenta Ciano Amarelo 
Branco 

Preto 


. As imagens de 8 bits a seguir sao (da esquerda para 


a direita) os componentes de imagem H, Se I da Fi- 
gura 6.16. Os números indicam valores de nível de 
cinza. Responda às questões a seguir justificando suas 
respostas em cada um dos casos. Se não for possível 
responder uma pergunta com base nas informações 
dadas, explique por quê. 

*(a) Calcule os valores dos níveis de cinza de todas as 

regiões da imagem do matiz. 


(b) Calcule os valores dos níveis de cinza de todas as 
regiões da imagem da saturação. 


(c) Calcule os valores dos níveis de cinza de todas as 
regiões da imagem da intensidade. 


(a) (b) 


(c) 


6.17. 


*6.18. 


6.19. 


*6.20. 


Analise a Figura 6.27 para responder as seguintes per- 
guntas: 


(a) Por que a imagem da Figura 6.27 (f) exibe tons pre- 
dominantemente vermelhos? 


(b) Sugira um procedimento automatizado para 
codificar a água na Figura 6.27 em uma cor azul 
intenso. 


(b) Sugira um procedimento automatizado para co- 
dificar os componentes predominantemente arti- 
ficiais (feitos pelo homem) em uma cor amarela 
intensa. (Dica: Trabalhe com a Figura 6.27 (1).) 


Mostre que o componente de saturação do comple- 
mento de uma imagem colorida não pode ser calcula- 
do com base apenas no componente de saturação da 
imagem de entrada. 


Explique o formato da função de transformação do 
matiz para a aproximação complementar da Figura 
6.33(b) utilizando o modelo de cores HSI. 

Deduza as transformações CMY para gerar o comple- 
mento de uma imagem colorida. 


. Faça um esboço das funções de transformação utili- 


zadas para corrigir o contraste excessivo no espaço de 
cores RGB. 


*6.22.Presuma que o monitor e a impressora de um sistema 


*6.24. 


de aquisição de imagens estejam mal calibrados. Uma 
imagem que parece equilibrada no monitor aparece 
amarelada na impressão. Descreva as transformações 
necessárias para corrigir o desequilíbrio. 


. Calcule os componentes L*a*b* da imagem apresen- 


tada no Exercício 6.6, considerando 


X| [0,588 0,179 0,183||R 
Y|=|0,29 0,606 0,105||G 
Z 0 0,068 1,021||B 


Essa equação matricial determina os valores triesti- 
mulo das cores geradas pelos pontos de material fluo- 
rescente de uma TV em cores de acordo com o padrão 
do National Television System Committee (NTSC), 
visto sob iluminação padrão D65 [Benson (1985)]. 

Como você implementaria o equivalente colorido do 


histograma da escala de cinza de acordo com as espe- 
cificações da Seção 3.3.2? 


. Considere a imagem RGB 500 x 500 a seguir, na qual 


os quadrados são compostos de vermelho, verde e 
azul totalmente saturados e cada uma das cores está 
na intensidade máxima [por exemplo, (1, 0, 0) para 
o quadrado vermelho]. Uma imagem HSI é gerada a 
partir dessa imagem. 


(a) Descreva a aparência de cada componente de 
imagem do modelo HSI. 


(b) O componente de saturação da imagem HSI é 
suavizado utilizando uma máscara da média de 


tamanho 125 x 125. Descreva a aparência do re- 
sultado (você pode ignorar os efeitos de contorno 
da imagem causados pela operação de filtragem). 


(c) Repita (b) para a imagem do matiz. 


Verde Vermelho 


Azul Verde 


6.26. Demonstre que a Equação 6.7-2 se reduz à Equação 
6.7-1 quando C = I (matriz identidade). 


6.27. *(a) Com referência à análise da Seção 6.7.2, sugira 
um procedimento (na forma de fluxograma) para 
determinar se um vetor de cor (ponto) z está den- 
tro de um cubo com lados W, centralizado em um 
vetor de cor média a. Utilização de valores abso- 
lutos (distâncias, por exemplo) não é permitida. 


(b) Esse processo também pode ser implementado 
nos componentes-base (imagem por imagem”) 
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se o cubo estiver alinhado com os eixos. Mostre 
como você faria isso. 


6.28. Esboce a superfície no espaço RGB formada pelos 
pontos que satisfazem a equação 


D(zaj=[(z-a) C'(z-a)P = D, 


na qual D, é uma constante diferente de zero. Pre- 
suma que a = 0 e que 


8 0 0 
C=|0 0 
o 0 


6.29. Consulte a Seção 6.7.3. É possível imaginar que uma 
abordagem lógica para definir o gradiente de uma ima- 
gem RGB em qualquer ponto (x, y) seria calcular o ve- 
tor do gradiente (veja a Seção 3.6.4) de cada com- 
ponente de imagem e depois formar um vetor de 
gradiente para a imagem colorida somando os três 
vetores de gradiente individuais. Infelizmente, esse 
método pode gerar resultados errôneos. Mais especi- 
ficamente, é possível para uma imagem colorida com 
bordas claramente definidas ter um gradiente zero se 
esse método fosse utilizado. Dê um exemplo de uma 
imagem como essa. (Dica: Defina um valor constante 
para um dos planos de cor para simplificar a sua análise.) 


Processamento com wavelets 
e multirresolução 


Durante esse tempo todo, o guarda estava olhando para ela, 
primeiro por um telescópio, depois por um microscópio e depois 
com óculos de ópera. 

Lewis Carrol, Alice através do espelho 


Capítulo 


Apresentação 


Apesar de a transformada de Fourier ter constituído os fundamentos do processamento de imagens com 
base em transformadas desde o final dos anos 1950, uma transformação mais recente, chamada de transfor- 
mada wavelet, atualmente tem facilitado ainda mais a compressão, transmissão e análise de muitas imagens. 
Diferentemente da transformada de Fourier, cujas funções de base são senoides, as transformadas wavelet 
se baseiam em pequenas ondas, chamadas de ondaletas ou wavelets, de frequência variada e duração limitada. 
Isso lhes permite proporcionar o equivalente a uma partitura musical para uma imagem, revelando não 
somente quais notas (ou frequências) tocar, mas também quando tocá-las. As transformadas de Fourier, por 
outro lado, fornecem apenas as notas ou informações de frequência; as informações temporais são perdidas 
no processo de transformação. 


Em 1987, foi demonstrado pela primeira vez que as wavelets constituíam as bases de uma poderosa nova 
abordagem ao processamento e análise de sinais, chamada de teoria multirresolução [Mallat (1987)]. A teoria 
multirresolução incorpora e unifica técnicas de uma variedade de áreas, incluindo a codificação em sub- 
“bandas, o processamento de sinais, a filtragem de quadratura espelhada, o reconhecimento digital de voz 
e o processamento piramidal de imagens. Como o nome sugere, a teoria multirresolução se concentra na 
representação e análise de sinais (ou imagens) em mais de uma resolução. A vantagem de uma abordagem 
como essa é clara — características que poderiam deixar de ser percebidas em uma resolução podem ser 
facilmente detectadas em outra. Apesar de o interesse da comunidade da área na análise multirresolução ter 
sido limitado até o final da década de 1980, atualmente chega a ser difícil acompanhar o número de artigos, 
teses e livros dedicados ao tema. 


Neste capítulo, analisaremos as transformações baseadas em wavelets do ponto de vista da multirresolução. 
Apesar de transformações como essas poderem ser apresentadas de outra forma, essa abordagem simplifica 
tanto a interpretação matemática quanto a física. Iniciaremos com uma visão geral das técnicas de aquisição 
de imagens que influenciaram a elaboração da teoria de multirresolução. Nosso objetivo é apresentar os 
conceitos fundamentais da teoria no contexto do processamento de imagens e, ao mesmo tempo, propor- 
cionar uma breve perspectiva histórica do método e de sua aplicação. A maior parte do capítulo se concentra 
no desenvolvimento e na utilização da transformada wavelet discreta. Para demonstrar a utilidade da trans- 
formada, apresentaremos exemplos que vão da codificação de imagens à remoção de ruídos e detecção de 
bordas. No próximo capítulo, as wavelets serão utilizadas na compressão de imagens, uma aplicação na qual 
a técnica recebeu considerável atenção. 


7.1 Fundamentos 


Quando observamos as imagens, geralmente vemos re- 
giões vinculadas por textura e níveis de intensidade similares, 
que se combinam para formar objetos. Se os objetos forem 
pequenos ou de baixo contraste, normalmente os analisamos 
em altas resoluções; se forem grandes ou de alto contraste, 
basta uma visão grosseira. Se objetos tanto pequenos quanto 
grandes — ou objetos de baixo e alto contraste — estiverem 
presentes simultaneamente, pode ser interessante analisá-los 
em várias resoluções. Essa, claro, é a motivação fundamental 
do processamento multirresolução. 


Do ponto de vista matemático, imagens são arranjos 
bidimensionais de valores de intensidade com estatísticas 
de variação local que resultam de diferentes combinações de 
características abruptas, como bordas e regiões homo- 
gêneas contrastantes. Como ilustra a Figura 7.1 — uma 
imagem que será repetidamente analisada ao longo de 
toda a seção —, histogramas locais” podem variar signifi- 
cativamente de uma parte de uma imagem a outra, o que 
torna muito difícil, ou mesmo impossível, o modelamento 
estatístico ao longo de toda a imagem. 


7.1.1 Pirâmides de imagem 


Uma estrutura poderosa, porém conceitualmente sim- 
ples, para representar as imagens em mais de uma re- 
solução é a pirâmide de imagem [Burt e Adelson 1983)]. 
Originalmente elaborada para aplicações de visão de ma- 
quina e compressão de imagens, uma pirâmide de ima- 
gem é uma coletânea de imagens de resolução cada vez 


Figura 7.1 Uma imagem e suas variações de histogramas locais. 
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menor, organizada no formato de uma pirâmide. Como 
podemos ver na Figura 7.2(a), a base da pirâmide contém 
uma representação de alta resolução da imagem sendo 
processada; o ápice contém uma aproximação de baixa 
resolução. À medida que subimos na pirâmide, tanto o 
tamanho quanto a resolução diminuem. O nível da base 
J é de tamanho 2’ x 2’ ou N x N, sendo que o nível do 
ápice O é de tamanho 1 x 1, e o nível geral j de tamanho 
2/ x 2), em que 0 < j < J. Embora a pirâmide mostrada na 
Figura 7.2(a) seja composta de J + 1 níveis de resolução 
de 27 x 27a 2º x 2°, a maioria das pirâmides de imagem é 
truncada em P + 1 níveis, sendo 1 < P<Jej=J-P,..., 
J-2,J-1, J. Isto é, normalmente nos limitamos a P apro- 
ximações de resolução reduzida da imagem original; uma 
aproximação 1 x 1 (isto é, pixel único) de uma imagem 
512 x 512, por exemplo, é de pouco valor. O número to- 
tal de pixels em uma pirâmide de nivel P+ 1 para P> 0 é 
des ge do N 

(47 

A Figura 7.2(b) mostra um sistema simples para 
construir duas pirâmides de imagem estreitamente rela- 
cionadas. A saída de aproximação de nível j- 1 proporciona as 
imagens necessárias para construir uma pirâmide de apro- 
ximação (como descrevemos no parágrafo anterior), ao 
passo que a saída de residual de previsão de nível j é utilizada 
para construir uma pirâmide de residual de previsão comple- 
mentar. Diferentemente das pirâmides de aproximação, 
as pirâmides de residual de previsão contêm apenas uma 


* Histogramas locais são histogramas dos pixels em uma vizinhança (veja a Seção 3.3.3). 
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Figura 7.2 


aproximação de resolução reduzida da imagem de entra- 
da (no topo da pirâmide, nivel J — P). Todos os outros 
níveis contêm residuais de previsão em que o residual de 
previsão de nível j (para J — P+ 1 < j < J) é definido como 
a diferença entre a aproximação de nível j (a entrada no 
diagrama de blocos) e uma estimativa da aproximação 
de nível j baseada na aproximação de nivel j - 1 (a saída da 
aproximação no diagrama de blocos).” 


Como sugere a Figura 7.2(b), tanto as pirâmides de 
aproximação quanto as pirâmides de residual de previsão 
são calculadas de forma iterativa. Antes da primeira ite- 
ração, a imagem a ser representada na forma piramidal é 
colocada no nivel J da pirâmide de aproximação. Então, o 
procedimento de três passos a seguir é executado P vezes: 
paraj=J, J-1,...e J-P+1 (nesta ordem): 


Passo 1. Calcule uma aproximação de resolução 
reduzida da imagem de entrada de nível j (a entrada 
no lado esquerdo do diagrama de blocos na Figura 
7.2(b)). Isso é feito pela filtragem e subamostragem 
(downsampling) do resultado filtrado por um fator 
de 2. Essas duas operações são descritas no próximo 
parágrafo. Posicione a aproximação resultante no 
nivel j- 1 da pirâmide de aproximação. 

Passo 2. Crie uma estimativa da imagem de entrada de 
nível j a partir da aproximação de resolução reduzida 


Em geral, um residual de previsão pode ser definido como a di- 
ferença entre uma imagem e uma versão preditiva da imagem. 
Como veremos na Seção 8.2.9, os residuais de previsão geral- 
mente podem ser codificados com mais eficiência do que os ar- 
ranjos 2-D de intensidade. 


(a) Uma pirâmide de imagem. (b) Um sistema simples para criar pirâmides de aproximação e de residual de previsão. 


gerada no passo 1. Isso é feito pela superamostragem 
(upsampling) e filtragem (veja o próximo parágrafo) 
da aproximação gerada. A imagem preditiva resul- 
tante terá as mesmas dimensões que a imagem de 
entrada de nível j. 


Passo 3. Calcule a diferença entre a imagem pre- 

ditiva do passo 2 e a entrada do passo 1. Coloque 

esse resultado no nivel j da pirâmide de residual de 

previsão. 

No final das P repetições (isto é, após a iteração na 
qual j = J- P + 1), a saída da aproximação de nível J — P 
é colocada na pirâmide de residual de previsão no nivel 
J - P. Se uma pirâmide de residual de previsão não for 
necessária, essa operação — juntamente com os passos 
2 e 3, a superamostragem, o filtro de interpolação e o 
somador da Figura 7.2(b) — pode ser omitida. 


Uma variedade de filtros de aproximação e interpo- 
lação pode ser incorporada ao sistema da Figura 7.2(b). 
Normalmente, a filtragem é realizada no domínio espacial 
(veja a Seção 3.4). Técnicas úteis de filtragem de apro- 
ximação incluem a média de vizinhança (veja a Seção 
3.5.1), que produz pirâmides médias; a filtragem passa- 
baixa gaussiana (veja as seções 4.7.4 e 4.8.3), que produz 
pirâmides gaussianas; e nenhuma filtragem, que resulta 
nas pirâmides de subamostragem. Qualquer um dos mé- 
todos de interpolação descritos na Seção 2.4.4, incluindo 
o método do vizinho mais próximo, interpolação bilinear 
e bicúbica, pode ser incorporado ao filtro de interpolação. 
Por fim, observe que os blocos de super e subamostragem 


da Figura 7.2(b) são utilizados para dobrar e reduzir pela 
metade as dimensões espaciais das imagens de aproxima- 
ção e de previsão calculadas. Dada uma variável inteira 
n e uma sequência 1-D de amostras f(n), a sequência de 
superamostragem é definida como 


f(n/2) sen for par 


0 caso contrario (7.1-1) 


fa (n) -| 


sendo que, como indicado pelo subscrito, a superamos- 
tragem é realizada por um fator de 2. A operação comple- 
mentar de subamostragem por 2 é definida como 


f,(n) = f (2n) 


A superamostragem pode ser entendida como o pro- 
cedimento de acrescentar um O após cada amostra em 
uma sequência; a subamostragem pode ser vista como o 


(7.1-2) 


a 
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processo de descartar amostras alternadamente. Os blo- 
cos de super e subamostragem da Figura 7.2(b), indicados 
por 2} e 2], respectivamente, indicam que tanto as linhas 
quanto as colunas das entradas 2-D nas quais eles ope- 
ram devem ser submetidas à super e à subamostragem. 
Tal qual a propriedade da separabilidade da DFT 2-D da 
Seção 4.11.1, a super e a subamostragem 2-D podem ser 
realizadas por passos sucessivos das operações 1-D defini- 
das nas equações 7.1-1 e 7.1-2. 


Exemplo 7.1 Pirâmides de aproximação e de residual 


de previsão. 

A Figura 7.3 mostra tanto uma pirâmide de aproxi- 
mação quanto uma pirâmide de residual de previsão para 
o vaso da Figura 7.1. Um filtro de suavização passa-baixa 
gaussiano (veja a Seção 4.7.4) foi utilizado para produzir a 


Figura 7.3 Duas pirâmides de imagem e seus histogramas: (a) uma pirâmide de aproximação; (b) uma pirâmide de residual de previsão.” 


* Neste capítulo, trabalharemos com funções e variáveis tanto contínuas quanto discretas. Com exceção de imagem 2-D f(x, y) e a não ser 
quando especificado de outra forma, x, y, z, ... são variáveis contínuas; i, j, k, l, m, n, ... são variáveis discretas. 


“ A pirâmide de aproximação em (a) é chamada de pirâmide gaussiana porque um filtro gaussiano foi utilizado para construí-la. A pirâmide 
de residual de previsão em (b), muitas vezes, é chamada de pirâmide laplaciana; observe a semelhança na aparência em relação às imagens 


filtradas pelo laplaciano no Capítulo 3. 
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pirâmide de aproximação de quatro níveis da Figura 7.3(a). 
Como podemos ver, a pirâmide resultante contém a imagem 
original de resolução 512 x 512 (na base) e três aproxima- 
ções de baixa resolução (de resolução 256 x 256, 128 x 128 
e 64 x 64). Dessa forma, P é igual a 3 e os níveis 9, 8, 7 e 
6 a partir de um possível log, (512) + 1 ou 10 níveis estão 
presentes. Observe a redução de detalhes que acompanha as 
resoluções mais baixas da pirâmide. A imagem de aproxima- 
ção de nível 6 (isto é, 64 x 64) é apropriada para localizar a 
moldura das vidraças, por exemplo, mas não para encontrar 
os galhos da planta. Em geral, os níveis de resolução mais 
baixa de uma pirâmide podem ser utilizados para a análise 
de grandes estruturas ou do contexto geral da imagem; as 
imagens de alta resolução são apropriadas para analisar ca- 
racterísticas de objetos individuais. Essa estratégia de aná- 
lise que vai de uma aproximação “grosseira” a um nível 
maior de detalhamento é particularmente útil no reconheci- 
mento de padrões. 


Um filtro de interpolação bilinear foi utilizado para 
produzir a pirâmide de residual de previsão da Figura 7.3(b). 
Na ausência de erro de quantização, a pirâmide de residual de 
previsão resultante pode ser utilizada para gerar a pirâmide 
de aproximação complementar da Figura 7.3(a), incluindo 
a imagem original, sem erro. Para isso, começamos com a 
imagem de aproximação de nível 6, 64 x 64 (a única ima- 
gem de aproximação na pirâmide de residual de previsão), 
prevemos a aproximação de nível 7, 128 x 128 (por meio 
da superamostragem e filtragem) e adicionamos o residual 
de previsão de nível 7. Esse processo é repetido utilizando 
imagens de aproximação sucessivamente calculadas até a 
imagem original 512 x 512 ser gerada. Observe que o histo- 
grama do residual de previsão da Figura 7.3(b) possui valo- 
res ao redor de um pico que ocorre no erro zero; o mesmo 
não acontece com o histograma de aproximação da Figu- 
ra 7.3(a). Diferentemente das imagens de aproximação, as 
imagens de residual de previsão podem ser altamente com- 
primidas atribuindo menos bits aos valores mais prováveis 
(veja os códigos de tamanho variável da Seção 8.2.1). Por 
fim, notamos que os residuais de previsão da Figura 7.3(b) são 
ajustados para fazer com que pequenos erros de previsão sejam 
mais visíveis; o histograma do residual de previsão, contudo, 
se baseia nos valores residuais originais, com o nível 128 
representando o erro zero. 

= 


11.2 Codificação em sub-bandas 


Uma outra técnica importante na aquisição de ima- 
gens relacionada à análise multirresolução é a codificação 
em sub-bandas. Nela uma imagem é decomposta em um 
conjunto de componentes de banda limitada, chamados 
de sub-bandas. A decomposição é realizada de forma que as 
sub-bandas possam ser novamente montadas para recons- 
truir a imagem original sem erro. Como a decomposição e 
a reconstrução são realizadas por meio de filtros digitais, 


começaremos nossa discussão com uma breve introdução 
ao processamento digital de sinais (DSP, de digital signal proces- 
sing) e à filtragem digital de sinais. 

Considere o filtro digital simples da Figura 7.4(a) e 
observe que ele é construído a partir de três componentes 
básicos — atrasos unitários," multiplicadores e somadores. Ao 
longo do topo do filtro, os atrasos unitários são ligados 
em série para criar versões atrasadas de K — 1 (isto é, des- 
locadas para a direita) da sequência de entrada f(n). Uma 
sequência com atraso f(n — 2), por exemplo, é 


para n=2 


fin—-2)= Fo) 
fO para n=2+1=3 

Como indicam as anotações em cinza da Figura 7.4(a), 
a sequência de entrada f(n) = f(n — 0) e as sequências atra- 
sadas de K — 1 das saídas dos atrasos unitários, expressos 
por f(n - 1), f(n - 2), ..., f(n- K + 1), são multiplicadas 
pelas constantes /(0), h(1), ..., A(K - 1), respectivamen- 
te, e somadas para produzir a sequéncia filtrada de saida 


În= > un) 


k=—00 


= f(n)* h(n) (7.1-3) 


na qual * indica convolução. Observe que — exceto por 
uma alteração das variáveis — a Equação 7.1-3 equiva- 
le à convolução discreta definida na Equação 4.4-10 do 
Capítulo 4. As K constantes de multiplicação da Figura 
7.4(a) e da Equação 7.1-3 são chamadas de coeficientes do 
filtro. Cada coeficiente define um tap do filtro, que pode ser 
entendido com os componentes necessários para calcular 
um termo do somatório da Equação 7.1-3, e dizemos que 
o filtro é de ordem K -1.” 


Se a entrada para o filtro da Figura 7.4(a) for o im- 
pulso unitário discreto da Figura 7.4(b) e da Seção 4.2.3, 
a Equação 7.1-3 passa a ser 


fin)= 3 h(kjó(n — k) 


k=—00 


=h(n) (7.1-4) 


Isto é, substituindo a entrada f(n) por ó(n) na Equação 
7.1-3 e nos utilizando da propriedade de peneiramento 


* O termo “atraso” sugere uma sequência de entrada com base no 
tempo e reflete o fato de que, na filtragem digital de sinais, a en- 
trada costuma ser um sinal analógico amostrado. 


* Se os coeficientes do filtro da Figura 7.4(a) forem indexados uti- 
lizando valores de n entre 0 e K — 1 (como fizemos), os limites do 
somatório na Equação 7.1-3 podem ser reduzidos para o interva- 
lo de 0 a K- 1 (como na Equação 4.4-10). 
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fin — K+ 1) 


a = Po = An — 9 
fon) f(n — 0) Atiaso f(n R 1) Atraso f(n a 
— eo npa > aya ... 
unitário unitário 


h(2) 


h(0) / 


h(O)f(n) 


ran / 


A()f(n — 1) 


A(2)f(n — 2) 


" Atraso 
unitário 
h(K — IN J 


h(K — 1)f(n — K + 1) 


Y 
A(O)f(n) + h(Df(n — 1) 


h(O)f(n) + 


/ 


— fin) = f(n) * h(n) 


Y 
dad © 


Sequência de entrada f(n) = 8(n) 


-1 0 1 2... 
Figura 7.4 


(sifting) do impulso unitário discreto, definido na Equa- 
ção 4.2-13, constatamos que a resposta ao impulso do fil- 
tro da Figura 7.4(a) é a sequência de K elementos com 
os coeficientes que definem o filtro. Fisicamente, o im- 
pulso unitário é deslocado da esquerda para a direita, 
com um atraso de uma unidade em relação ao anterior, 
produzindo uma saída que assume o valor do coeficiente 
na posição do impulso atrasado. Como existem K coefi- 
cientes, a resposta ao impulso tem tamanho K e o filtro 
é chamado de filtro de resposta ao impulso finita (FIR, de 
finite impulse response). 

A Figura 7.5 mostra as respostas ao impulso de seis 
filtros funcionalmente relacionados. O filtro h,(n) da Fi- 
gura 7.5(b) é uma versão de sinal reverso (isto é, refletido 
em relação ao eixo horizontal) de A (n) da Figura 7.5(a).' 
Isto é, 


h,(n) = — h (n) 


Os filtros h,(n) e h,(n) das figuras 7.5(c) e (d) são 
versões de ordem reversa de h (n):” 


(7.1-5) 


(7.1-6) 


* No restante do capítulo, o termo “filtro A(n)” será utilizado para 
se referir ao filtro cuja resposta ao impulso é h(n). 

“ A ordem reversa muitas vezes é chamada de reversão temporal 
quando a sequência de entrada é um sinal analógico amostrado. 


1) + h(2)f(n — 2) S 


K-1 / 

> h(k)f(n — k) = f(n) x h(n) 

k=0 

c 1 
h(1) 

E h(2) 
E 
2 HO) | h(K — 1) 
E) 
a h(3) 
al 
= 00 oa es come 
3 teats 
E h(4) 
fo) 
mu 
6 
~ 

=] 0° 12 k= | 


(a) Um filtro digital; (b) uma sequência de impulso unitário discreto; e (c) a resposta ao impulso do filtro. 


h(n) = h, (K- 1- n) (7.1-7) 


O filtro h, (n) é uma reflexão de h (n) em relação 
ao eixo vertical; o filtro h (n) é uma versão refletida e 
transladada (isto é, deslocada) de A (n). Desconsiderando 
a translação, as respostas dos dois filtros são idênticas. O 
filtro h,(n) da Figura 7.5(e), que é definido como 


h(n) = (— 1)"h, (n) (7.1-8) 


é chamado de versão modulada de h,(n). Como a modula- 
ção altera os sinais de todos os coeficientes de indexação 
ímpar (isto é, os coeficientes para os quais n é ímpar na 
Figura 7.5(e)), ,(1) = A (1) e h,(3) = —A,(3), enquanto 
h,(0) = h,(0) e h,(2) = h (2). Por fim, a sequência mos- 
trada na Figura 7.5(f) é uma versão de ordem reversa de 
h (n) que também é modulada: 


h(n) = (— 1)"h,(K— 1- n) (7.1-9) 


Incluimos essa sequência para ilustrar o fato de que a 
reversão de sinal, a reversão de ordem e a modulação 
algumas vezes se combinam na especificação da relação 
entre dois filtros.” 


Com essa breve introdução à filtragem digital de 
sinais, vamos analisar o sistema de codificação e deco- 


“* Um banco de filtros é uma coletânea de dois ou mais filtros. 
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Figura 7.5 Seis filtros de resposta ao impulso funcionalmente relacionados: (a) resposta de referência; (b) sinal reverso; (c) e (d) ordem reversa 
(diferenciados pelo atraso introduzido); (e) modulação; e (f) e ordem reversa e modulação. 


dificação em duas sub-bandas da Figura 7.6(a). Como 
indicado na figura, o sistema é composto de dois bancos 
de filtros, cada um contendo dois filtros FIR do tipo mos- 
trado na Figura 7.4(a). Observe que cada um dos quatro 
filtros FIR é representado como um único bloco na Figu- 
ra 7.6(a), com a resposta ao impulso de cada filtro (e o 
símbolo de convolução) escrita dentro dele. O banco de 
filtros de análise, que inclui os filtros A (n) e A (n), é uti- 
lizado para dividir a sequência de entrada f(n) em duas 
sequências da metade do tamanho fot) e f,p(71), que são 
as sub-bandas que representam a entrada. Observe que 
os filtros h (n) e h(n) são filtros de meia-banda cujas 
características de transferência ideais, H, e H,, são mos- 
tradas na Figura 7.6(b). O filtro A (n) é um filtro passa- 
-baixa (low-pass) cuja saída, a sub-banda f (n), é chamada 
de uma aproximação de f(n); o filtro h (n) é um filtro 
passa-alta (Aight-pass) cuja saída, a sub-banda fap (1), é 
chamada de alta frequéncia ou detalhes de f(n). Os ban- 
cos de filtros de síntese g,(n) e g,(n) se combinam a fp) e 
fop) para produzir f(n). A meta da codificação em sub- 
bandas é selecionar h (n), h,(n), g,(n) e 9,(n) de modo 
que f(n) = f(n). Isto é, de forma que a entrada e a saída 
do sistema de codificação e decodificação em sub-ban- 
das sejam idênticas. Quando isso é obtido, diz-se que o 
sistema resultante emprega filtros de reconstrução perfeita. 

Há muitos bancos de filtro FIR de reconstrução per- 
feita, de duas bandas, com coeficientes reais descritos na 
literatura.” Em todos eles, os filtros de síntese são versões 


* Por coeficiente real, queremos dizer que os coeficientes de filtro são 
números reais (não complexos). 


moduladas dos filtros de análise — com um (e apenas 
um) filtro de síntese sendo também de sinal reverso. Para 
a reconstrução perfeita, as respostas ao impulso dos fil- 
tros de síntese e análise devem ser relacionadas em uma 
das duas formas a seguir:” 


g(t) = (— 1)"h, (n) 

9/01) = (= 1)" h, (n) (7.1-10) 
ou 

Jotn) = (= 1)"*"h, (n) 

In) = (= 1)"h, (n) (7.1-11) 


Os filtros A (n), A (1), 9,(”) eg (n) nas equações 7.1-10 
e 7.1-11 são considerados de modulação cruzada porque 
filtros diagonalmente opostos no diagrama de blocos da 
Figura 7.6(a) são relacionados pela modulação [e reversão 
do sinal quando o fator de modulação é —(-1)” ou (-1)""']. 
Além disso, é possível demonstrar que eles satisfazem a 
seguinte condição de biortogonalidade: 


(h,(2n — k), 94k)) = d(i — j)8(n), 


i, j= {0,1} (7.1-12) 


* As equações 7.1-10 a 7.1-14 são descritas em detalhes na literatu- 


ra sobre bancos de filtros [veja, por exemplo, Vetterli e Kovacevic 
(1995)]. 
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Figura 7.6 (a) Um sistema de codificação e decodificação em duas 
sub-bandas e (b) sua propriedade de separação do espectro. 


Aqui, (h,(2n — k), g(k)) indica o produto interno 
de h,(2n — k) e g(k). Quando i não é igual a j, o produto 
interno é 0; quando i e j são iguais, o produto é a função 
de impulso unitário discreto, 6(n). Retomaremos a bior- 


togonalidade na Seção 7.2.1. 

De interesse especial na codificação em sub-bandas — 
e no desenvolvimento da transformada rápida de wavelet 
da Seção 7.4 — são os filtros que vão além da biortogo- 
nalidade e requerem que 


(gn), g, +2m)) = ŝli — j)8(m), 


i j= {0,1} (7.1-13) 
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que define a ortonormalidade para bancos de filtros de re- 
construção perfeita. Além da Equação 7.1-13, é possível 
demonstrar que os filtros ortonormais satisfazem as duas 
condições a seguir: 


g,(n) = (— 1)"g,(K,,.— 17”) 


h(n) =9,(K,,,- 1-1), i= {0,1} (7.1-14) 


sendo que o subscrito em Kar é utilizado para indicar que 
o número de coeficientes do filtro deve ser divisível por 2 
(isto é, um número par). Como indica a Equação 7.1-14, 
o filtro de síntese g, se relaciona a g, por ordem reversa 
e modulação. Além disso, tanto h, quanto h, são versões 
de ordem reversa dos filtros de síntese, g, € q, respecti- 
vamente. Dessa forma, um banco de filtros ortonormais 
pode ser desenvolvido ao redor da resposta ao impulso 
de um único filtro, chamado de protótipo; os outros fil- 
tros podem ser calculados a partir da resposta ao impulso 
do protótipo especificado. Para bancos de filtros biorto- 
gonais, dois protótipos são necessários; os outros filtros 
podem ser calculados por meio da Equação 7.1-10 ou da 
71-11. A geração de filtros de protótipo úteis, sejam eles 
ortonormais ou biortogonais, está além do escopo deste 
capítulo. Nós apenas utilizamos filtros que tenham sido 
apresentados na literatura e sugerimos referências para 
leituras adicionais. 


Antes de concluir a seção com um exemplo de co- 
dificação em sub-bandas 2-D, observamos que os filtros 
biortogonais e ortonormais 1-D podem ser utilizados 
como filtros separáveis 2-D para o processamento de 
imagens. Como podemos ver na Figura 7.7, os filtros se- 


* ho(m) 2 


Linhas (ao 
longo de m) 


Fm,n) @— 


x hy(m) 2 


* h(n) 2 


e a(m,n) 


Colunas (ao 
longo de n) 


* h(n) 2) 


Linhas 


e d“mn) 


Colunas 


21 o d'(m,n) 


Colunas 


X h(n) 


x h(n) 2) e (m,n) 


Colunas 


Figura 7.7 Banco de filtros bidimensionais de quatro bandas para a codificação de imagens em sub-bandas. 


* O produto interno de vetor das sequências f(”) e f(n) é (ff) = X fi(n) f(n), na qual * denota a operação conjugada completa. Se f,(n) e 


f,(n) forem reais, (f, f) = (ff). 
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paráveis são primeiro aplicados em uma dimensão (isto 
é, verticalmente) e depois na outra (isto é, horizontal- 
mente), como mostramos na Seção 2.6.7. Além disso, 
a subamostragem é realizada em duas etapas — mais 
uma vez antes da segunda operação de filtragem para 
reduzir o número total de cálculos. As saídas filtradas 
resultantes, indicadas por a(m, n), (m, n), d"(m, n) e 
aP(m, n), na Figura 7.7, são chamadas de sub-bandas 
de aproximação, detalhe vertical, detalhe horizontal e detalhe 
diagonal da imagem de entrada, respectivamente. Essas 
sub-bandas podem ser divididas em quatro sub-bandas 
menores, que podem ser divididas novamente e assim 
por diante — uma propriedade que descreveremos mais 
detalhadamente na Seção 7.4. 


E 
Exemplo 7.2 Uma codificação em sub-bandas de 
quatro bandas do vaso da Figura 7.1. 


A Figura 7.8 mostra as respostas ao impulso de qua- 
tro filtros ortonormais de 8 taps. Os coeficientes do filtro de 
síntese protótipo 9,(n) para g,(n) para 0 < n < 7 [na Figura 
7.8(c)] são definidos na Tabela 7.1 [Daubechies (1992)]. Os 
coeficientes dos filtros ortonormais restantes podem ser cal- 
culados utilizando a Equação 7.1-14. Com a ajuda da Figura 
7.5, observe (pela análise visual) a modulação cruzada dos 
filtros de análise e síntese da Figura 7.8. É relativamente fá- 
cil demonstrar numericamente que os filtros são tanto bior- 


a h(n) 


Figura 7.8 
Tabela 7.1. 


Tabela 7.1 Coeficientes do filtro ortonormal de Daubechies de 8 


taps para g,(n) [Daubechies (1992). 


gn) 
0,23037781 
0,1484657 
0,63088076 
-0,02798376 
-0,18703481 
0,03084138 
0,03288301 
-0,01059740 


SO NT ejN] -=o 


togonais (eles satisfazem a Equação 7.1-12) quanto ortonor- 
mais (eles satisfazem a Equação 7.1-13). Como resultado, 
os filtros de Daubechies de 8 taps da Figura 7.8 suportam a 
reconstrução livre de erros da saída decomposta. 


Uma divisão de quatro bandas da imagem 512 x 512 
do vaso da Figura 7.1, com base nos filtros da Figura 7.8, 
é mostrada na Figura 7.9. Cada quadrante dessa imagem é 
uma sub-banda de tamanho 256 x 256. A começar com o 
canto superior esquerdo e avançando em sentido horário, 
os quatro quadrantes contêm a sub-banda de aproxima- 
ção a, a sub-banda de detalhe horizontal d", a sub-banda 
de detalhe diagonal d? e a sub-banda de detalhe vertical 
d’, respectivamente. Todas as sub-bandas, com exceção da 
sub-banda de aproximação da Figura 7.9(a), foram ajusta- 
das para que sua estrutura básica fique mais visível. Obser- 


Respostas ao impulso dos quatro filtros ortonormais de Daubechies de 8 taps. Consulte os valores de g,(n) para 0 < n < 7 na 
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Figura 7.9 Uma divisão de quatro bandas do vaso da Figura 7.1 utilizando o sistema de codificação em sub-bandas da Figura 7.7. As quatro 
sub-bandas resultantes são as sub-bandas de (a) aproximação, (b) detalhe horizontal, (c) detalhe vertical e (d) detalhe diagonal. 


ve os efeitos visuais do aliasing presentes nas figuras 7.9(b) 
e (c) — as sub-bandas d" e dv.” As linhas onduladas da área 
da janela se devem à sub-amostragem da vidraça quase 
não discernível na Figura 7.1. Apesar do aliasing, a imagem 
original pode ser reconstruída sem erro a partir das sub- 
-bandas da Figura 7.9. Os filtros de síntese necessários, 
Jo(n) e 9,(n), são determinados a partir da Tabela 7.1 e da 
Equação 7.1-14, e incorporados a um banco de filtros que 
copia aproximadamente o sistema da Figura 7.7. No novo 
banco de filtros, os filtros A, (n) para i = (0, 1} são substitu- 
ídos por suas contrapartes q,(n), e os sistemas de supera- 
mostragem e os somadores são acrescentados. 

= 


713 A transformada de Haar 


A terceira e última operação vinculada à análise 
multirresolução de imagens que veremos é a transforma- 
da de Haar [Haar (1910)]. No contexto deste capítulo, 
sua importância provém do fato de suas funções de base 
(definidas a seguir) serem as wavelets ortonormais mais 
antigas e as mais simples conhecidas. Elas serão utilizadas 
em uma série de exemplos nas seções a seguir. 


* Para saber mais sobre aliasing, veja a Seção 4.5.4. 


No que se refere à discussão da Seção 2.6.7, a trans- 
formada de Haar pode ser expressa na seguinte forma 
matricial 


T = HFH! (7.1-15) 


na qual F é uma matriz de imagem N x N, H é uma ma- 
triz N x N de transformação de Haar e T é a transformada 
N x N resultante. A matriz transposta é necessária por- 
que H não é simétrica; na Equação 2.6-38 da Seção 2.6.7, 
presume-se que a matriz de transformação seja simétri- 
ca. Para a transformada de Haar, H contém as funções 
de base de Haar A,(z). Elas são definidas para o intervalo 
contínuo e fechado z € [0, 1] para k = 0, 1, 2,..., N— 1, 
sendo N = 2". Para gerar H, definimos o número inteiro 
k de forma que k= 2+ q4 — 1, sendo 0<p<n-1,q4=0 
ou | para p = 0, e 1 < q < 2’ para p = 0. Dessa forma, as 
funções de base de Haar são 


zelo 1] (7.1-16) 
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2’? (q-1)/2"<z<(9-0,5)12º 
1 
——=}—2"" (q—0,5)/2”<z<q/2” 


pa (I 


0 caso contrário, zel0, 1] 
(7.1-17) 


A i-ésima linha de uma matriz de transformação 
de Haar N x N contém os elementos de h,(z) para z = 
O/N, 1/N, 2/N, ..., (N -— 1)/N. Por exemplo, se N = 2, a 
primeira linha da matriz de Haar 2 x 2 é calculada utilizan- 
do h,(z) com z = 0/2, 1/2. A partir da Equação 7.1-16, 
h (z) é igual a 1142 independente de z, de forma que 
a primeira linha de H, tem dois elementos 1/ V2 idên- 
ticos. A segunda linha é obtida calculando h (z) para 
z= 0/2, 1/2, já que k= 2 +q- 1l, quando k=1,p=0e 
q = 1. Dessa forma, a partir da Equação 7.1-17, temos que 
h,(0) = 2° 1 V2 =1/ V2,4,(1/2)=—2° N2 =—1/V2 ea 


matriz de Haar 2 x 2 é 


1 Il l 
H,=—= 
J2|1 =] (7.1-18) 
Se N=4, k, ge p assumem os valores 
k p q 
0 0 0 
1 0 1 
2 1 1 
3 1 2 
e a matriz de transformação 4 x 4, H, é 
l l l l 
1/1 1 1 -l 
H =—= 
edad -v2 o oœ 
O dd sb 2) (7.1-19) 


Nosso principal interesse na transformada de Haar 
é que as linhas de H, podem ser utilizadas para definir 
os filtros de análise A (n) e h(n) de um banco de filtros 
de reconstrução perfeita de 2 taps (veja a seção anterior), 
bem como os vetores de escala e wavelet (definidos nas 
seções 7.2.2 e 7.2.3, respectivamente) da mais simples e 
mais antiga transformada wavelet (veja o Exemplo 7.10 
na Seção 7.4). Em vez de concluir a seção com o cálculo 
de uma transformada de Haar, nós a concluíremos com 
um exemplo que ilustra a influência dos métodos de de- 
composição que vimos até agora sobre os métodos que 
explicaremos no restante do capítulo. 


= 
Exemplo 7.3 Funções de Haar em uma transformada 
wavelet discreta. 


A Figura 7.10(a) mostra uma decomposição da imagem 
512 x 512 na Figura 7.1 que combina as principais caracte- 
rísticas da codificação em pirâmide, codificação em sub-ban- 
das e transformada de Haar (as três técnicas que discutimos 
até agora). Chamada de transformada wavelet discreta (que 
explicaremos mais adiante neste capítulo), a representa- 
ção é caracterizada pelos seguintes aspectos importantes: 


1. Com exceção da subimagem no canto superior esquer- 
do da Figura 7.10(a), os histogramas locais são muito 
similares. Muitos dos pixels são próximos de zero. 
Como as subimagens (com exceção da subimagem do 
canto superior esquerdo) foram ajustadas para que sua 
estrutura básica ficasse mais visível, os histogramas 
exibidos atingem o pico na intensidade 128 (os zeros 
foram ajustados para cinza médio). O grande número 
de zeros na decomposição faz da imagem uma exce- 
lente candidata para a compressão (veja o Capítulo 8). 


2. De forma similar ao modo no qual os níveis da pirá- 
mide de residual de previsão da Figura 7.3(b) foram 
utilizados para criar imagens de aproximação com di- 
ferentes resoluções, as subimagens na Figura 7.10(a) 
podem ser utilizadas para construir aproximações de 
resolução tanto grosseira quanto refinada da imagem 
original do vaso da Figura 7.1. As figuras 7.10(b) a (d), 
que são de tamanho 64 x 64, 128 x 128 e 256 x 256, 
respectivamente, foram geradas a partir das subima- 
gens da Figura 7.10(a). Uma reconstrução 512 x 512 
perfeita da imagem original também é possível. 


3. Como na decomposição de codificação em sub-ban- 
das da Figura 7.9, um banco de filtros FIR simples, de 
coeficientes reais da forma dada na Figura 7.7, foi uti- 
lizado para produzir a Figura 7.10(a). Após a geração 
de uma imagem de quatro sub-bandas como a da Fi- 
gura 7.9, a sub-banda de aproximação 256 x 256 foi 
decomposta e substituída por mais quatro sub-bandas 
128 x 128 (utilizando o mesmo banco de filtros) e a 
sub-banda de aproximação resultante foi decomposta 
mais uma vez e substituída por quatro sub-bandas 
64 x 64. Esse processo produziu o arranjo único de 
subimagens que caracteriza as transformadas wave- 
let discretas. As subimagens na Figura 7.10(a) ficam 
cada vez menores à medida que passamos do canto 
inferior direito ao superior esquerdo da imagem. 


4. A Figura 7.10(a) não é a transformada de Haar da 
imagem na Figura 7.1. Apesar de os coeficientes do ban- 
co de filtros que foram utilizados para produzir essa 
decomposição terem sido retirados da matriz de trans- 
formação Haar H,, uma variedade de coeficientes de 
banco de filtros ortonormais e biortogonais pode ser 
utilizada nas transformadas wavelet discretas. 
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Figura 7.10 


(a) Uma transformada wavelet discreta utilizando as funções básicas de Haar H,. Seus histogramas locais também são mostrados. 


(b) a (d) Várias diferentes aproximações (64 x 64, 128 x 128 e 256 x 256) que podem ser obtidas a partir de (a). 


5. Como mostraremos na Seção 7.4, cada subimagem 
da Figura 7.10(a) representa uma banda específica de 
frequências espaciais na imagem original. Além dis- 
so, muitas das subimagens demonstram sensibilidade 
direcional (por exemplo, a subimagem do canto supe- 
rior direito da Figura 7.10(a) captura as informações 
de borda horizontal da imagem original). 


Considerando essa impressionante lista de característi- 
cas, é notável que a transformada wavelet discreta da Figura 
7.10(a) tenha sido gerada utilizando dois filtros digitais de 2 
taps com um total de quatro coeficientes. 

E 


7.2 Expansões multirresolução 


Apresentamos, na seção anterior, três técnicas de 
aquisição de imagens bem conhecidas que exercem um 


importante papel no campo da matemática chamado de 
análise multirresolução (MRA, de multiresolution analysis). 
Na MRA, uma função de escala é utilizada para criar uma 
série de aproximações de uma função ou imagem, cada 
uma com resoluções que diferem por um fator de 2 consi- 
derando suas aproximações de vizinhança mais próxima. 
Funções adicionais, chamadas de wavelets, são, então, uti- 
lizadas para codificar a diferença das informações entre 
aproximações adjacentes. 


12.1 Expansões em séries 

Um sinal ou função f(x) muitas vezes pode ser mais 
bem analisado como uma combinação linear de funções 
de expansão 


f(x) = Lay, (x) (7.2-1) 
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na qual k é um número inteiro que corresponde ao índice 
de uma soma finita ou infinita, a, são coeficientes de expan- 
são de valor real e ,(x) são funções de expansão também de 
valor real. Se a expansão for única, isto é, só existe um 
conjunto de a, para uma dada função f(x), y,(x), são cha- 
mados de funções de base, e o conjunto de expansão, {y,(x)}, é 
chamado de uma base para a classe de funções que podem 
ser expressas dessa forma. As funções representadas desse 
modo formam um espaço de função chamado de espaço gera- 
dor do conjunto de expansão, expresso como 


V= Spang.) (7.2-2) 


No qual o operador Span {y,(x)} corresponde a todas 
as combinações lineares dos elementos de f(x) € V. Dizer 
que f(x) € V significa que f(x) está no espaço gerador de 
{y,(x)} e pode ser expressa na forma da Equação 7.2-1. 

Para qualquer espaço de função Ve conjunto de ex- 
pansão correspondente (p,(x)), há um conjunto de fun- 
ções duais expresso por (7,(x)) que pode ser utilizado 
para calcular os coeficientes a, da Equação 7.2-1 para 
qualquer f(x) € V. Esses coeficientes são calculados com 
os produtos internos integrais! da função dual ¢,(x) e da 
função f(x). Isto é, 


a, = (Go L00) = | Goftga (7.2-3) 
na qual’ indica a operação de conjugado complexo. De- 
pendendo da ortogonalidade do conjunto de expansão, 
esse cálculo assume uma de três formas possíveis. O Exer- 
cício 7.10 no final do capítulo ilustra os três casos utilizan- 
do vetores no espaço euclidiano bidimensional. 


Caso 1: Se as funções de expansão formarem uma 
base ortonormal para V, ou seja, 
O jz#k 
PAX), Px) = 64 = 
(ee) = bs 1 j=k (724) 


a base e sua dual são equivalentes. Isto é, q,(x) = 
, (x), e a Equação 7.2-3 passa a ser 
a, = (P(x), flx)) 


Os a, são calculados como os produtos internos das 
funções de base e f(x). 


(7.2-5) 


Caso 2: Se as funções de expansão não forem ortonor- 
mais, mas formarem uma base ortogonal para V, então 


* O produto interno integral de duas funções reais ou complexas 
fix) e g(x) é (fix), g(x) = freada. Se f(x) for real, f*(x) = f(x) 
e (Fix). 9()) = | fledgode. 


(2,0), 9,(4)) =0 jk (7.2-6) 


e as funções de base e suas duais são chamadas bior- 
togonais. Os a, são calculados utilizando a Equação 
7.2-3 e a base biortogonal e sua dual são tais que 


O jæk 


(0/00), 6,/0))= bx = i j=k 


(7.2-7) 
Caso 3: Se o conjunto de expansão não formar uma 
base para V, mas suportar a expansão definida na 
Equação 7.2-1, trata-se de um conjunto gerador 
no qual há mais de um conjunto de a, para qual- 
quer f(x) € V. Diz-se que as funções de expansão e 
suas duais são redundantes. Elas formam um “qua- 
dro” (frame) no qual” 


Al fool’ Deco. fog) < Bl fool? (7.2.8) 


para alguns valores A > 0, B < œ e todos f(x) € V. 
Dividindo essa equação pela norma de f(x) ao qua- 
drado, vemos que A e B “enquadram” os produtos 
internos normalizados dos coeficientes de expansão 
e a função. Equações similares às equações 7.2-3 e 
7.2-5 podem ser utilizadas para calcular os coe- 
ficientes de expansão para os frames. Se A = B, 0 
conjunto de expansão é chamado de um tight frame, e 
é possível demonstrar que [Daubechies (1992)] 


FOZZ E(D (72.9) 


Com exceção do termo A™!, que é uma medida de 
redundância do frame, essa expressão é idêntica à ex- 
pressão obtida substituindo a Equação 7.2-5 (para 
bases ortonormais) na Equação 7.2-1. 


122 Funções de escala 


Considerando o conjunto das funções de expansão 
composto de translações por inteiros e escalas binárias da 
função real, de quadrado integravel p(x); esse é o conjun- 
to (p, ,(x)}, no qual 


ip, (x) = 2! p(x — k) (7.2-10) 


para todos os j, k € Z e v(x) € L?(R).™ Neste caso, k de- 
termina a posição de ao longo do eixo x, e j determina a 
largura de q, (x) — isto é, o quão larga ou estreita ela é 
ao longo do eixo x. O termo 2!” controla a amplitude da 


“ A norma de f(x), expressa por Ilf(x)|l, é definida como a raiz quadra- 
da do valor absoluto do produto interno de f(x) com ela mesma. 

*™ A notação L?(R), na qual R é o conjunto de números reais, ex- 
pressa o conjunto de funções mensuráveis, unidimensionais, de 
quadrado integrável; Z é o conjunto dos números inteiros. 


função. Como o formato de P, (x) varia de acordo com j, 
p(x) é chamada de função de escala. Se p(x) for escolhida 
adequadamente, (p, ,(x)} pode ser feita para gerar L*(R), 
que é o conjunto de todas as funções mensuráveis, de 
quadrado integravel. 


Se restringirmos j na Equação 7.2-10 a um valor 
específico, digamos j = j, 0 conjunto de expansão resul- 
tante, (9, .(x)}, é um subconjunto de (p, ,(x)} que gera 
um subespaço de L?(R). Utilizando a notação da seção 
anterior, podemos definir esse subespaço como 


V = spang ax (7.2-11) 


Isto é, V, é o conjunto gerador de q, ,(x) em função 
de k. Se f(x) € V, podemos escrever 


f(x) = DM lx) 


De forma mais geral, expressaremos o subespaço 
gerado em função de k para qualquer j como 


(7.2-12) 


V, = Span, (x) (7.2-13) 
a pool) = (x) 
| 
1 
0 E 
| 
x 
0 1 2 3 
c ¢1,0(x) = V2 (2x) 
1 
0 = 
| 
x 
0 1 2 3 
e f(xyeVy 


Figura 7.11 Algumas funções de escala de Haar. 
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Como veremos no exemplo a seguir, eleva j aumen- 
ta também o tamanho de V, permitindo que funções com 
variações menores ou detalhes mais finos sejam incluídas 
no subespaço. Essa é uma consequência do fato de que, 
à medida que j aumenta, Y; ,(X), que sao utilizadas para 
representar as funções do subespaço, se tornam mais es- 
treitas e separadas por variações menores de x. 


= 
Exemplo 7.4 A função de escala de Haar. 


Considere a função de escala de altura unitária e lar- 
gura unitária [Haar (1910)] 


1 O<x<l 
(x)= 


O caso contrário (7.2-14) 


As figuras 7.11 (a) a (d) mostram quatro das várias fun- 
ções de expansão que podem ser geradas substituindo essa 
função de escala em formato de pulso na Equação 7.2-10. 
Observe que as funções de expansão para j = 1 nas figuras 
7.11(c) e (d) apresentam a metade da largura das funções 


b pox) = g(x — 1) 


0 1 2 3 


d g11(x) = \2 (2x — 1) 


0 1 2 3 


f $0,.0(x) E Vi 


11/2 


| Pro/N2 
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para j = 0 nas figuras 7.11(a) e (b). Para um determinado 
intervalo em x, podemos definir duas vezes o número de 
funções de escala V, como funções de escala V, (isto é, q, q € 
P, , de V, versus p, de V, para o intervalo O < x< 1). 


A Figura 7.11(e) mostra um membro do subespa- 
ço V,. Essa função não pertence a V, porque as funções de 
expansão V, nas figuras 7.11 (a) e (b) são muito grosseiras 
para representá-las. Neste caso, são necessárias funções de 
resolução mais alta, como as das figuras 7.11(c) e (d). Elas 
podem ser utilizadas, como mostrado em (e), para represen- 
tar a função pela expansão de três termos 


f(x) = 0,59, 5 (x) + Pi (x) — 0,259 4 (x) 


Para concluir o exemplo, a Figura 7.11(f) ilustra a 
decomposição de p,, (x) como uma soma das funções de 
expansão V,. De forma similar, qualquer função de expan- 
são V, pode ser decomposta utilizando-se 


vo (x)= hia) | Paal) 


Dessa forma, se f(x) for um elemento de V, ela tam- 
bém será um elemento de V,. Isso ocorre porque todas as 
funções de expansão V, estão contidas em V,. Matematica- 
mente, dizemos que V, é um subespaço de V, ou V CV. 

E 


A simples função de escala do exemplo anterior 
obedece aos quatro requisitos fundamentais da análise 
multirresolução [Mallat (1989a)]: 


Requisito n. 1 da MRA: A função de escala é ortogonal às 
suas translações por números inteiros. 


Isso é facilmente verificado no caso da função de 
Haar, porque sempre que ela tem valor 1, suas 
translações por números inteiros têm valor 0, de 
forma que o produto dos dois é 0. Diz-se que a fun- 
ção de escala de Haar tem suporte compacto, o que 
significa que tem valor 0 em qualquer ponto fora 
de um intervalo finito chamado de suporte. De fato, 
a largura do suporte é 1 e é O fora do intervalo se- 
miaberto [0, 1). Note que fica cada vez mais difícil 
satisfazer o requisito para as translações ortogonais 
por inteiros à medida que a largura do suporte da 
função de escala passa a ser maior do que 1. 


Requisito n. 2 da MRA: Os subespacos gerados pela função 
de escala em baixas escalas são alojados dentro dos subes- 
paços gerados em escalas mais altas. 


Como podemos ver na Figura 7.12, os subespaços 
contendo funções de alta resolução também devem 
conter todas as funções de resolução mais baixa. 
Isto é, 


VC. CV CVCVCYC.. CV. (7.2-15) 


Além disso, os subespaços satisfazem a condição in- 
tuitiva de que, se fixyev, entao fX EV p O fato de 
a função de escala de Haar satisfazer esse requisito 
não deve ser interpretado como uma indicação de 
que qualquer função com uma largura de suporte 
igual a 1 automaticamente satisfaz a condição. Dei- 
xamos como um exercício para o leitor demonstrar 
que a função igualmente simples 


1 0,25<x<0,75 


P(x) = 
O nos outros lugares 


não é uma função de escala válida para uma análise 
multirresolução (veja o Exercício 7.11). 


Requisito n. 3 da MRA: A única função comum a todos os 
Vé fix) = 0. 

Se considerarmos as funções de expansão mais gros- 
seiras possíveis (isto é, j = —oo), a única função repre- 
sentável é a função sem nenhuma informação. Isto é, 


(7.2-16) 


Requisito n. 4 da MRA: Qualquer função pode ser repre- 
sentada com precisão arbitrária. 


Apesar de talvez não ser possível expandir uma 
função específica f(x) em uma resolução arbitraria- 
mente grosseira, como foi o caso da função da Figura 
7.11(e), todas as funções mensuráveis e de quadrado 
integrável podem ser representadas pelas funções 


de escala no limite com j — oo. Isto é, 
V_ = {L?(R)} (7.2-17) 


Sob essas condições, as funções de expansão do 
subespaco V, podem ser expressas como uma soma pon- 
derada das funções de expansão do subespaço V,,,. Utili- 
zando a Equação 7.2-12, temos que 


PAX) E LAP janl) 


VcMhcM, 


<> 


Figura 7.12 Alojamento dos espaços de função gerados por uma 
função de escala. 


na qual o indice do somatório foi alterado para n para fa- 
cilitar a interpretação. Substituindo , , „„ (x) pela Equa- 
ção 7.2-10 e alterando a variável a, para h (n) , temos“ 


Pv) = Eh (nya? ya!" x —n) 


Como g(x) = P, (x), O valor 0 pode ser atribuído tanto a 
j quanto a k a fim de obter a expressão mais simples, na 
qual não há subscrito 


g(x) = Eh (nW2p(2x —n) (7.2-18) 


Os coeficientes h in) nessa equação recursiva são 
chamados de coeficientes da função de escala; h, é cha- 
mado de vetor de escala. A Equação 7.2-18 é fundamental 
para a análise multirresolução e é chamada de equação de 
refinamento, equação MRA ou equação de dilatação. Ela es- 
tabelece que as funções de expansão de qualquer subes- 
paço podem ser construídas a partir de cópias de dupla 
resolução de si mesmas — isto é, a partir de funções de 
expansão do próximo espaço de resolução mais alta. A 
escolha de um subespaço de referência, V, é arbitrária. 


E 
Exemplo 7.5 Coeficientes da função de escala de Haar. 


Os coeficientes da função de escala para a função de 
Haar da Equação 7.2-14 são h,(0)=h,(1)=1/ V2, a pri- 
meira linha da matriz H, na Equação 7.1-18. Dessa forma, a 
Equação 7.2-18 resulta em 


V2p(2x)] + =|V29(2x — 1) 


1 l 

elx)= 2 +l 

V2 V2 
Essa decomposicao foi ilustrada graficamente para 

Po (x) na Figura 7.11(f), na qual vemos que os termos en- 
tre colchetes da expressão anterior são q, ,(x) e , (x). Uma 
simplificação adicional resulta em p(x) = (2x) + p(2x — 1). 
E 


123 Funções wavelet 


Dada uma função de escala que satisfaça os requi- 
sitos de MRA da seção anterior, podemos definir uma 
função wavelet (x) que, junto com suas translações por 
números inteiros e escalas binárias, gera a diferença entre 
dois subespaços quaisquer de escala adjacente, V, e V. A 
situação é ilustrada graficamente na Figura 7.13. Defini- 
mos o conjunto {w, (x)) de wavelets 
Y, (x) = H2 1x — k) 


J 


(7.2-19) 


* Os a, são alterados para h(n) pois eles serão utilizados posterior- 
mente (veja a Seção 7.4) como coeficientes de banco de filtros. 
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V> = V, ® W, =V, Ð Wy W, 


\ Vi = WOW 


Figura 7.13 A relação entre os espaços de função de escala e wavelet. 


para todos os k € Z que geram os espaços W da figura. No 
que se refere às funções de escala, escrevemos 


W= Span{, ,(x)} (7.2-20) 
e observamos que, se f(x)€ W, 
F(x) = Layth (X) (7.2-21) 


Os subespaços de função de escala e wavelet na Figu- 
ra 7.13 são relacionados por 


Vii = VOW, 


a (7.2232) 
na qual & expressa a união dos espaços (como a união de 
conjuntos). O complemento ortogonal de V em V, é W, 
e todos os membros de V, são ortogonais aos membros de 
W. Dessa forma, 


(9,40). t ()) = 0 


(7.2-23) 
para todos os j, k, l € Z apropriados. 


Agora podemos expressar o espaço de todas as fun- 
ções mensuráveis de quadrado integrável como 


L(R) =V EW BWE... (7.2-24) 
ou 
LP(R) =V 8 W W, 8.. (7.2-25) 
ou então 
V(R)=..0W,0W W, W O WO... (7.2-26) 


o que elimina a função de escala e representa uma função 
exclusivamente em termos de wavelets (isto é, há apenas 
espaços de função wavelet na Equação 7.2-26). Obser- 
ve que, se f(x) for um elemento de V, mas não de V, 
uma expansão utilizando a Equação 7.2-24 contém uma 
aproximação de f(x) utilizando funções de escala de V,. As 
wavelets de W, podem codificar a diferença entre essa apro- 
ximação e a função real. As equações 7.2-24 a 7.2-26 po- 
dem ser generalizadas para gerar 
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PR) =V OWE WO. 


jot 1 


(7.2-27) 
na qual j, é uma escala inicial arbitrária. 


Como os espaços wavelet residem nos espaços gera- 
dos pelas próximas funções de escala de resolução mais 
alta (veja a Figura 7.13), qualquer função wavelet — como 
sua função de escala equivalente da Equação 7.2-18 — 
pode ser expressa como uma soma ponderada de funções 
de escala deslocadas, de dupla resolução. Em outras pala- 
vras, podemos escrever 


Wx) = Th, (nN 22x- n) (7.2-28) 


na qual os h(n) são chamados de coeficientes da função wa- 
velet e h, é o vetor wavelet. Utilizando a condição de que as 
wavelets geram os espaços complementares ortogonais da 
Figura 7.13 e que as translações de wavelet por números 
inteiros são ortogonais é possível demonstrar que h(n) 
se relaciona com h (n) por [veja, por exemplo, Burrus, 
Gopinath e Guo (1998)] 


h(n) = (—1)"h,(1 — n) (7.2-29) 
a W(x) = Yoo) 
| 
1 
0 
| 
=] 
| 
0 1 2 3 
© by o(x) = 2 (2x) 
i: 
0 
| 
=] 
| 
0 1 2 3 
e fdx)eVo 
1 | ye Po,0 
0 = nes: 
| x 
=1 | —V2/8 $0.2 


Figura 7.14 Funções wavelet de Haar em W e W, 


Observe a semelhança desse resultado com a Equa- 
ção 7.1-14, que corresponde à relação entre as respostas 
ao impulso dos filtros ortonormais de codificação e deco- 
dificação em sub-bandas . 


=] 
Exemplo 7.6 Os coeficientes da função wavelet de Haar. 


No exemplo anterior, o vetor de escala de Haar foi defini- 
do como h (0) = h (1) = 1/ V2. Utilizando a Equação 7.2-29, 
o vetor wavelet correspondente é h (0) = (—1)°⁄ 0 —0)= 
1/V2e h(l) = e Al —D= -1/N2. Observe que es- 
ses coeficientes correspondem à segunda linha da matriz H, 
na Equação 7.1-18. Substituindo esses valores na Equação 
7.2-28, obtemos W(x) = (2x) — (2x — 1), que é represen- 
tado graficamente na Figura 7.14(a). Dessa forma, a função 
wavelet de Haar é 


1 0<x<0,5 
Wxy=4-1 0 0,5<x<l1 
0 nos outros lugares (7.2-30) 


Utilizando a Equação 7.2-19, agora podemos gerar 
o universo de wavelets de Haar escalonadas e transladadas. 


D poal) = ya- 2) 


1 


© 
| 


0 1 2 3 
d = 
f(x) e Vi = Vo ® Wo 
1 
0 — = 
-1 
0 1 2 3º 
É  fa(x) Wo 
| 
1 | 2/8 Jo, 
i pel — 
R 
-1 | —V2/4 boo 
0 1 2 3 


Duas dessas wavelets, W,,(X) e Y(X), são mostradas nas 
figuras 7.14(b) e 7.14(c), respectivamente. Observe que a 
wavelet q), ,(x) para o espaço W, é mais estreita do que a wa- 
velet 1, (x) para Wy ela pode ser utilizada para representar 
detalhes mais finos. 


A Figura 7.14(d) mostra uma função do subespaço V, 
que não está no subespaço V,. Vimos essa função em um 
exemplo anterior [veja a Figura 7.11 (e)]. Apesar de a função 
não poder ser representada com exatidão em V, a Equação 
7.2-22 indica que ela pode ser expandida utilizando as fun- 
ções de expansão V, e W,. A expansão resultante é 


f = £0) + 1d) 


sendo 
2 V2 
f(x) A Po (x) a) 
poor a) 


Neste caso, f (x) é uma aproximação de f(x) utilizando 
funções de escala V, ao passo que f (x) é a diferença f(x) — f (x) 
como uma soma de wavelets W,. As duas expansões, mostra- 
das nas figuras 7.14(e) e 7.14(f), dividem f(x) de forma similar 
a um filtro passa-baixa e passa-alta, como vimos na discus- 
são referente à Figura 7.6. As baixas frequências de f(x) são 
representadas em f(x) — que assume o valor médio de f(x) 
em cada intervalo inteiro —, ao passo que os detalhes de alta 
frequência são codificados em f(x). 

E 


7.3 Transformadas wavelet em uma 
dimensão 


Agora podemos definir formalmente várias trans- 
formações wavelet estreitamente relacionadas: a expansão 
de séries wavelet generalizada, a transformada wavelet dis- 
creta e a transformada wavelet contínua. Suas contrapartes 
no domínio de Fourier são a expansão de série de Fou- 
rier, a transformada discreta de Fourier e a transformada 
integral de Fourier, respectivamente. Na Seção 7.4, de- 
senvolvemos uma implementação computacionalmente 
eficiente da transformada wavelet discreta, chamada de 
transformada rápida de wavelet. 


13.1 As expansões de séries wavelet 


Começamos definindo a expansão de séries wavelet 
da função f(x) € L?(R) relativa à função wavelet w(x) e 
função de escala p(x). De acordo com a Equação 7.2-27, 
f(x) pode ser representada por uma expansão da função 
de escala no subespaço (a Equação 7.2-12 define uma 
expansão como essa) e algum número de expansões de 
função wavelet nos subespaços W, , W, aye (como defi- 
nido na Equação 7.2-21). Dessa forma, 
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F(x) = Dey Mp, (Xt 
PEAR W(x) (7.3-1) 


j=j 

na qual j, é uma escala inicial arbitrária e c, Ak) e d(k) 
correspondem aos a, das equações 7.2-12 e 7. 2-21, res- 
pectivamente. Os c, (K) normalmente são chamados de 
coeficientes de aproximação elou escala, os d (k) são cha- 
mados de coeficientes de detalhes e/ou wavelet. Isso ocorre 
porque a primeira soma na Equação 7.3-1 utiliza fun- 
ções de escala para fornecer uma aproximação de f(x) 
na escala j, [a menos que f(x) € V, de forma que a soma 
das funções de escala seja igual a fle )]. Para cada escala 
mais alta j > j, na segunda soma, uma função de maior 
resolução — uma soma de wavelets — é adicionada à 
aproximação para proporcionar cada vez mais detalhes. 
Se as funções de expansão formarem uma base orto- 
normal ou um tight frame, o que costuma ser o caso, os 
coeficientes de expansão são calculados — com base nas 
equações 7.2-5 e 7.2-9 — como” 


c o(k)= (FOI Po) 


= | fpa (7.3-2) 
E 
AU) = (LOW, (2) 
=) fly (7.3-3) 


Nas equações 7.2-5 e 7.2-9, os coeficientes de expan- 
são (isto é, os a,) são definidos como produtos internos 
da função que está sendo expandida e das funções de ex- 
pansão que estão sendo utilizadas. Nas equações 7.3-2 
e 7.3-3, as funções de expansão são os Pe OS Vy OS 
coeficientes de expansão são os ceosd. Se. as funções de 
expansão fizerem parte de uma base biortogonal, os ter- 
mos y e w dessas equações devem ser substituídos pelas 
suas funções duais, ğ e 1), respectivamente. 


= 
Exemplo 7.7 A expansão de séries da wavelet de Haar 
de y= x. 
Considere a função simples: 


xX 0<x<l 
0 caso contrário 


mostrada na Figura 7.15(a). Utilizando wavelets de Haar — 
veja as equações 7.2-14 e 7.2-30 — e uma escala inicial 
jo = 0, as equações 7.3-2 e 7.3-3 podem ser utilizadas para 
calcular os seguintes coeficientes de expansão: 


* Como f é real, os conjugados não são necessários nos produtos 
internos das equações 7.3-2 e 7.3-3. 
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Substituindo esses valores na Equação 7.3-1, obtemos 
a expansão de séries wavelet 


V, =V BW; =V WEW, 


a 
-0,5 ” 
0 0,25 0,5 0,75 1 
C 
1 W, 
o5 =1/4 Woo 
1/4 Na 
: -}--+--- 
—1/4 
-05 2 
0 0,25 0,5 0,75 
e 1 
WwW, 
—32/32 1 
= \2/ 32 0 Ne 
3/16 E 
1/16 
-1/16 === -F 4 
—3/16 
x 
0 0,25 0,5 0,75 1 


O primeiro termo dessa expansão utiliza c,(0) para 
gerar uma aproximação de subespaço V, da função sendo 
expandida. Essa aproximação é mostrada na Figura 7.15(b) 
e corresponde ao valor médio da função original. O segundo 
termo utiliza d (0) para refinar a aproximação acrescen- 
tando um nível de detalhe do subespaço W,. Os detalhes 
adicionados e a aproximação V, resultante são mostrados 
nas figuras 7.15(c) e 7.15(d), respectivamente. Outro nível 
de detalhe é acrescentado por d (0) e d (1), que são coefi- 
cientes do subespaço W. Esse detalhe adicional é mostrado 
na Figura 7.15(e) e a aproximação V, resultante é represen- 
tada em 7.15(f). Observe que a expansão agora está come- 
cando a se parecer com a função original. À medida que 
escalas mais altas (maiores níveis de detalhes) são acres- 
centadas, a aproximação passa a ser uma representação 
mais precisa da função, realizando-a no limite com j > oo. 

= 


73.2 Atransformada wavelet discreta 


Do mesmo modo que a expansão de série de Fourier, 
a expansão de séries wavelet da seção anterior mapeia 
uma função de uma variável contínua em uma sequên- 
cia de coeficientes. Se a função em expansão for discreta 
(isto é, uma sequência de números), os coeficientes re- 
sultantes serão chamados de transformada wavelet discreta 


1/3 0,0 


0 0,25 0,5 0,75 1 


0 0,25 0,5 0,75 1 


Figura 7.15 Expansão de séries wavelet de y= X utilizando wavelets de Haar. 


(DWT, de discrete wavelet transform). Por exemplo, se f(n) 
= fix, + nAx) para algum x, 4x, en =0,1,2,...,M- 
1, os coeficientes de expansão de séries wavelet para f(x) 
(definidos pelas equações 7.3-2 e 7.3-3) passam a ser os 
coeficientes da DWT direta para a sequência f(n) 


W, (ig k= = Efe, (134) 
WGR = FRE FO (7.3-5) 

para j > j, 
Os P, a(n) e Va (n) nessas equações são versões amos- 


(x) ey 


tradas das ade é base Pu x (x). Por exemplo, 
p, (2) = Pu 9, (x + nAx) para diens X, Ax en=0, 1,2, ss 
M - 1. Dessa forma, empregamos M amostras igualmente 
espaçadas ao longo do suporte das funções de base (veja o 
Exemplo 7.8 a seguir). De acordo com a Equação 7.3-1, a 


DWT inversa complementar é 


fin) = Ta ett 


— LW, Wo, 
=n (7.3-6) 

Normalmente, fazemos j, = 0 e selecionamos M para 
ser uma potência de 2 (i.e., M = 2’), de forma que os soma- 
tórios das equações 7.3-4 a 7.3-6 são calculadas ao longo de 
n=0,1,2,...,M-1,j=0,1,2,...,J-lek=0,1,2,..., 
2/—1. Para wavelets de Haar, as funções discretizadas de esca- 
la e wavelet empregadas na transformada (isto é, as funções 
de base), correspondem às linhas da matriz de transforma- 
ção de Haar M x M da Seção 7.1.3. A própria transformada 
é composta de M coeficientes, a escala mínima é O e a esca- 
la máxima é J — 1. Pelas razões observadas na Seção 7.3.1 
e ilustradas no Exemplo 7.6, os coeficientes definidos nas 
equações 7.3-4 e 7.3-5 normalmente são chamados de coe- 
ficientes de aproximação e de detalhes, respectivamente. 

Os W (jK) e W (j,k) nas equações 7.3-4 a 7.3-6 cor- 
respondem aos c (x) e d(k) da expansão de séries wave- 
let da seção anterior. (Essa alteração das variáveis não é 
necessária, mas prepara o caminho para a notação pa- 
dronizada utilizada para a transformada wavelet contínua da 
próxima seção.) Observe que as integrais na expansão 
de séries foram substituídas por somatórios e um fator de 
normalização VM, que lembra a DFT da Seção 4.4.1, foi 
adicionado tanto na expressão direta quanto na inver- 
sa. Alternativamente, esse fator poderia ser incorporado 
apenas à transformação direta ou à transformação inver- 
sa, como 1/M. Por fim, devemos lembrar que as equações 
7.3-4 a 7.3-6 são válidas somente para bases ortonormais 


pal) + 


Kb, (n) 
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e de tight frames. Para bases biortogonais, os termos y e 
w nas equações 7.3-4 e 7.3-5 devem ser substituídos por 
suas duais, 4 e 1), respectivamente. 


| 
Exemplo 7.8 Cálculo de uma transformada wavelet 
discreta unidimensional. 


Para ilustrar a utilização das equações 7.3-4 a 7.3-6, 
considere a função discreta de quatro pontos: f(0) = 1, f(1) = 
4, f(2) =-3 e f(3) = 0. Como M = 4, J = 2 e, com j, = 0, as so- 
matorias são calculadas em x = 0, 1, 2, 3,7=0, 1 e k = 0 para 
j=0ouk=0, 1 para j= 1. Utilizaremos as funções de escala 
e wavelet de Haar e consideraremos que as quatro amostras 
de f(x) são distribuídas ao longo do suporte das funções de 
base, cuja largura é 1. Substituindo as quatro amostras na 
Equação 7.3-4, descobrimos que 


Wo, 0=15 fin) Po ot 
Javea atone 


porque Pool) = 1 paran=0,1,2,3. Observe que empregamos 
amostras uniformemente espaçadas da função de escala de Haar 
para j = 0 e k = 0. Os valores correspondem a primeira linha da 
matriz de transformação de Haar H, da Seção 7.1.3. Prosseguin- 
do com a Equação 7.3-5 e as amostras igualmente espaçadas de 
Vy (x) que correspondem às linhas 2, 3 e 4 de H, obtemos 


W,(0,0)= SUA S3( HO I]=4 
WA 05002444 -V2)—-3-0+0-0]=-—1,5V2 
WAL])= e 3.2 +0-(-V2)]=—1,5V2 


Dessa forma, a transformada wavelet discreta da nossa 
função simples de quatro amostras relativa à função wavelet 


4:-1,5/2;-1,542|, 


coeficientes da transformada foram arranjados na ordem em 
que foram calculados. 


e de escala de Haar é na qual os 


A Equação 7.3-6 nos permite reconstruir a função ori- 
ginal a partir de sua transformada. Efetuando uma interação 
por meio de seus índices de somatório, obtemos 


fln)= SIW (0,042, 0()+ W,,(0,0)t4,9(1t)+ 
WAL, ol) + W, (1 1)a,(n)] 


para n = 0, 1, 2, 3. Sen = 0, por exemplo, 
f(0) = S[t-1+4-1-1,5V2-(V2)—1,5V2-0]=1 


Como no caso direto, amostras uniformemente es- 
pacadas das funções de escala e wavelet são utilizadas no 
cálculo da inversa. 

a 


326 Processamento digital de imagens 


A DWT de quatro pontos do exemplo anterior é 
uma ilustração de uma decomposição de duas escalas de 
f(n) — isto é, j = (0, 1). A premissa básica foi que a escala 
inicial j, era zero, mas outras escalas iniciais são possí- 
veis. Deixamos como um exercício para o leitor (veja o 
Exercício 7.16) calcular a transformada de escala única 
{2,5V2; 1,5V2;-1,5v2; 1,5v2}, que resulta quando a 
escala inicial é 1. Dessa forma, as equações 7.3-4 e 7.3-5 
definem uma “família” de transformadas que difere na 
escala inicial j,. 


73.3 A transformada wavelet contínua 


A extensão natural da transformada wavelet discre- 
ta é a transformada wavelet contínua (CWT, de continuous 
wavelet transform), que transforma uma função contínua 
em uma função altamente redundante de duas variáveis 
contínuas — translação e escala. A transformada resul- 
tante é de fácil interpretação e muito útil para a análise de 
tempo-frequência. Apesar de o nosso interesse se concen- 
trar em imagens discretas, apresentaremos aqui a trans- 
formada contínua para que o material seja completo. 


A transformada wavelet contínua de uma função 
contínua de quadrado integrável, f(x), relativa a um wa- 
velet de valor real, y(x), é definida como 


oo 


fix, (xdx (7.3-7) 


wism)= f 


—DO 


na qual 


Y x)= 7” 


(7.3-8) 


s 
e s e 7 são chamados de parâmetros de escala e translação, 
respectivamente. Dada W, (s, 7), f(x) pode ser obtida utili- 
zando a transformada wavelet contínua inversa 


O io i Y, (x) 
Hae J, f wasa) Z drds (139) 
sendo 
ce (a) 
C= d (7.3-10) 
E lu 


e W(u) a transformada de Fourier de w(x). As equações 
7.3-7 a 7.3-10 definem uma transformação reversível 
desde que os chamados critérios de admissibilidade, C ,<oo, 
sejam satisfeitos [Grossman e Morlet (1984). Na maio- 
ria dos casos, isso simplesmente significa que W(0) = 0 
e Y(u)—> 0 à medida que u — oo com rapidez suficiente 
para que € <oo. 

As equações anteriores são reminiscentes de suas con- 
trapartes discretas — equações 7.2-19, 7.3-1, 7.3-3, 7.3-5 e 
7.3-6. As semelhanças a seguir devem ser observadas: 


1. O parâmetro de translação contínua, T, assume o 
lugar do parâmetro de translação de inteiros, k. 


2. O parâmetro de escala contínua, s, é inversamen- 
te relacionado ao parâmetro de escala binária, 2), 
Isso ocorre porque s aparece no denominador de 
w((x — 7)/s) na Equação 7.3-8. Dessa forma, as 
wavelets utilizadas em transformadas contínuas 
são comprimidas ou reduzidas em largura quando 
0<s<1esao dilatadas ou expandidas quando s > 1. 
A escala da wavelet e a nossa noção tradicional de 
frequência são inversamente relacionadas. 


3. A transformada contínua é similar a uma expan- 
são de série (veja a Equação 7.3-1) ou transformada 
discreta (veja a Equação 7.3-5), na qual a escala ini- 
cial j, = ee. Isso — de acordo com a Equação 7.2-26 — 
elimina a dependência explícita da função de escala, 
de forma que a função é representada somente em 
termos de wavelets. 


4. Da mesma forma que a transformada discreta, a trans- 
formada contínua pode ser vista como um conjunto 
de coeficientes de transformada, {W (s, T)}, que me- 
dem a semelhança de f(x) com um conjunto de 
funções de base, (1. (x)}. No caso contínuo, con- 
tudo, os dois conjuntos são infinitos. Como W(X) 
tem valor real e y (x) = y* (x), cada coeficiente 
da Equação 7.3-7 é o produto interno integral, 


(fix), Y,.(0)), de flx) e Y, (x). 


= 
Exemplo 7.9 Uma transformada wavelet contínua 
unidimensional. 


A wavelet de chapéu mexicano (mexican hat), 
2 —1/4 
—=N 
E 
tem esse nome em virtude de seu formato diferenciado [veja 
a Figura 7.16(a)]. Ela é proporcional à segunda derivada da 
função de probabilidade gaussiana, tem um valor médio 0 
e tem suporte compacto (isto é, desaparece rapidamente à 
medida que Ixl — oo). Apesar de satisfazer o requisito de 
admissibilidade para a existência de transformadas continu- 
as e reversíveis, não há uma função de escala associada e a 
transformada calculada não resulta em uma análise ortogo- 
nal. Suas características mais distintivas são sua simetria e a 
existência da expressão explícita da Equação 7.3-11. 


Wx) = (=x ai) 


A função contínua e unidimensional da Figura 7.16(a) 
é a soma de duas wavelets de chapéu mexicano: 


fo) = Dy, yo) + By, s) 

Seu espectro de Fourier, mostrado na Figura 7.16(b), re- 
vela a estreita relação entre as wavelets escalonadas e as ban- 
das de frequência de Fourier. O espectro contém duas bandas 
de frequência mais amplas (picos), que correspondem às duas 
perturbações do tipo gaussiano que estão presentes na função. 


a fæ 
1 


—0,4 
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Figura 7.16 A transformada wavelet contínua (c e d) e o espectro de Fourier (b) de uma função 1-D contínua (a). 


A Figura 7.16(c) mostra uma porção (1 <s < 10 e 

T < 100) da CWT da função da Figura 7.16(a) relativa à 
wavelet de chapéu mexicano. Diferentemente do espectro 
de Fourier da Figura 7.16(b), ela proporciona informações 
tanto espaciais quanto de frequência. Observe, por exem- 
plo, que, quando s = 1, a transformada atinge o máximo em 
T = 10, o que corresponde à posição do componente 1), ,, 
(x) de f(x). Como a transformada proporciona uma medida 
objetiva da similaridade entre f(x) e as wavelets para as quais 
ela é calculada, é fácil ver como ela pode ser utilizada para 
a detecção de características. Nós simplesmente precisamos 
de wavelets que correspondam às características de interesse. 
Observações similares podem ser feitas em relação ao gráfi- 
co de intensidade da Figura 7.16(d), no qual o valor absoluto 
da transformada IW, (s, 7)l é mostrado como intensidades 
entre preto e branco. Observe que a transformada wavelet 
contínua transforma uma função 1-D em um resultado 2-D. 
E 


7.4 A transformada rápida de wavelet 


A transformada rápida de wavelet (FWT, de fast wave- 
let transform) é uma implementação computacionalmente 
eficiente da transformada wavelet discreta (DWT) que ex- 
plora uma relação surpreendente, porém favorável, entre 


os coeficientes da DWT em escalas adjacentes. Também 
chamado de algoritmo piramidal de Mallat [Mallat (1989a, 
1989b)], a FWT se assemelha ao esquema de codificação 
em duas sub-bandas da Seção 7.1.2. 
Vejamos novamente a equação de refinamento mul- 
tirresolução” 
g(x) = oh (nW2p(2x —n) (7.4-1) 


Efetuar a escala de x por 2), a translação por k e fazer 
m = 2k + n resulta em 


yp(2!x—k)= dof, (nV 29(2(2! x—k)— n) 
=Ñ a (n22 x — 2k —n) 


=o h,(m—2kN29(2""'x—m) (7.4-2) 


Observe que o vetor de escala h, pode ser conside- 
rado como “pesos” utilizados para expandir y(2/x — k) 
como uma soma das funções de escala, de escala j + 1. 
Uma sequência similar de operações — a começar com a 
Equação 7.2-28 — nos proporciona um resultado análo- 
go para )(2ix — k). Isto é, 


* A Equação 7.4-1 é a Equação 7.2-18 da Seção 7.2.2. 
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Wix-)=5 h, m- 2k)W2p(2"*"'x—m) (7.4-3) 


na qual o vetor de escala h na Equação 7.4-2 correspon- 
de ao vetor wavelet h (n) na Equação 7.4-3. 


Vejamos agora as equações 7.3-2 e 7.3-3 da Seção 
7.3.1. Elas definem os coeficientes da expansão de séries 
wavelet da função continua f(x)". Substituindo a Equação 
7.2-19 — a equação de definição da wavelet —, na Equa- 
ção 7.3-3, temos 


d (k)= J FZP (2! x — k)dx 


que, ao substituir (2x — k) pelo lado direito da Equação 
7.4-3, passa a ser 


(7.4-4) 


dAk)= I f(x)2!” > h,(m— 2k 2942" x — m)l dx 


(7.4-5) 


Permutando a soma e a integral e reordenando os 
termos, temos que 


AND h,(m—2h)| frota" xm) 
” (7.4-6) 


sendo que o valor entre colchetes é c (k), da Equação 7.3-2, 
com j, = j + 1 ek= m. Para ver isso, substitua a Equação 
7.2-10 na Equação 7.3-2 e substitua j, € k por j + 1 em, 
respectivamente. Dessa forma, podemos escrever 


dA) => hm 2k)c, (m) 


Note também que os coeficientes de detalhes na es- 
cala j são uma função dos coeficientes de aproximação na 
escala j + 1. Utilizando as equações 7.4-2 e 7.3-2 como o 
ponto de partida de uma dedução similar envolvendo os 
coeficientes de aproximação da expansão de séries wave- 
let (e DWT), temos que 


c,(k) = oh, (m— 2k)c,,,(m) 


Como os coeficientes clk) e dk) da expansão de sé- 
ries wavelet se tornam os coeficientes W (j, k) e W (G, k) da 
DWT quando f(x) é discreta (veja a Seção 7.3.2), pode- 
mos escrever 


(7.4-7) 


(7.4-8) 


y 


Wj k\=) h, (m—-2k)W (j+1,m) (7.4-9) 


* Os coeficientes da expansão de séries wavelet passam a ser o coefi- 
ciente DWT quando f é discreta. Aqui, começamos com os coeficien- 
tes de expansão de série para simplificar a dedução; poderemos 
substituir livremente a partir de resultados anteriores (como as 
definições de função de escala e wavelet). 


WA = doh, (m—2k)W (j+1,m) (7.4-10) 


As equações 7.4-9 e 7.4-10 revelam uma relação 
notável entre os coeficientes DWT de escalas adjacentes.” 
Comparando esses resultados com a Equação 7.1-7, ve- 
mos que tanto W (j, k) quanto W (j, k), a aproximação de 
escala j e os coeficientes de detalhes podem ser calculados 
pela convolução de W (j + 1, k), os coeficientes de apro- 
ximação da escala j + 1, com os vetores de escala e wavelet 
de ordem reversa, h,(—n) eh,(—n), e realizando uma su- 
bamostragem dos resultados. A Figura 7.17 resume essas 
operações na forma de um diagrama de blocos. Observe 
que esse diagrama é idêntico à porção da análise do siste- 
ma de codificação e decodificação em duas sub-bandas da 
Figura 7.6, com h (n) = h (=n) e h(n) = h,(—n). Dessa 
forma, podemos escrever 

W, (j,k) =hANW (j+ 1n) 


(0 


n=2k,k>0 (7.4-1 1 ) 


WAL =h,(—nykW,(j +11) 


(7) 


n=2k,k>0 (7.4- 12) 


sendo que as convoluções são calculadas nos instantes 
n = 2k para k > 0. Como veremos no Exemplo 7.10, cal- 
cular as convolucoes para os indices pares não negativos 
equivale a realizar a filtragem e a subamostragem por 
um fator de 2. 


As equações 7.4-11 e 7.4-12 definem o cálculo da 
transformada rápida de wavelet. Para uma sequência de ta 
manho M = 2), o número de operações matemáticas 
envolvidas é da ordem de O(M). Isto é, o número de mul- 
tiplicações e adições é linear em relação ao tamanho da 
sequência de entrada — porque o numero de multipli- 
cações e adições envolvidas nas convoluções realizadas 
pelo banco de análise FWT da Figura 7.17 é proporcional 
ao tamanho das sequências convoluídas. Dessa forma, a 
FWT se compara de forma favorável ao algoritmo da FFT, 
que requer algo na ordem de O(M log, M)operações. 


x hn) 21 @ WG, n) 
Wj +1, n) @©— 
* h(n) 24 e W,(j.n) 
Figura 7.17 Um banco de análise FWT. 
“ Se rescrevermos h (m — 2k) na Equação 7.4-9 como hA-(2k —m)], 


veremos que o primeiro sinal negativo é responsável pela rever- 
são de ordem (veja a Equação 7.1-6), o 2k é responsável pela 
subamostragem (veja a Equação 7.1-2), em é a variável local para 
a convolução (veja a Equação 7.1-7). 


Para concluir o desenvolvimento da FWT, simples- 
mente observamos que o banco de filtros da Figura 7.17 
pode ser “repetido” para criar estruturas de múltiplos es- 
tágios para o cálculo dos coeficientes da DWT em duas 
ou mais escalas sucessivas. Por exemplo, a Figura 7.18(a) 
mostra um banco de filtros de dois estágios para gerar os 
coeficientes nas duas mais altas escalas da transformada. 
Observe que consideramos que os coeficientes de mais 
alta escala são amostras da própria função. Isto é, W (J, n) = 
f(n), sendo J a mais alta escala. [De acordo com a Se- 
ção 7.2.2, f(x) € V, sendo que V, é o espaço de escala 
no qual f(x) se localiza.) O primeiro banco de filtros da 
Figura 7.18(a) divide a função original em um compo- 
nente passa-baixa, de aproximação, que corresponde aos 
coeficientes de escala W (J — 1, n), e um componente 
passa-alta, de detalhes, correspondente aos coeficientes 
WJ — 1, n). Isso é ilustrado graficamente na Figura 
7.18(b), na qual o espaço de escala é dividido em um 
subespaço wavelet W, | e um subespaço de escala V, . O 
espectro da função original é dividido em dois componen- 
tes de meia banda. O segundo banco de filtros da Figura 
7.18(a) divide o espectro e o subespaço V,_,, que corres- 
ponde à meia banda inferior, em subespaços de um quarto 
de banda W,, e V,, com os coeficientes da DWT corres- 
pondentes WAJ— 2,n) e WAS — 2, n), respectivamente. 

O banco de filtros de dois estágios da Figura 7.18(a) 
pode ser facilmente estendido a qualquer número de es- 
calas. Um terceiro banco de filtros, por exemplo, operaria 
sobre os coeficientes W (J — 2, n), dividindo o espaço de 
escala V, , em dois subespaços de oito bandas W, ,e V, 
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Normalmente, escolhemos 2’ amostras de f(x) e emprega- 
mos P bancos de filtros (como na Figura 7.17) para gerar 
uma FWT de escala P nas escalas J-1,J-2,..,J-P. 
Os coeficientes da mais alta escala (isto é, J- 1) são cal- 
culados primeiro; os da mais baixa escala (isto é, J — P) 
são calculados por último. Se a função f(x) for amostra- 
da acima da taxa de Nyquist, como costuma ser o caso, 
suas amostras são boas aproximações dos coeficientes de 
escala na resolução de amostragem e podem ser utiliza- 
das nas entradas iniciais dos coeficientes de escala de alta 
resolução. Em outras palavras, nenhum coeficiente wave- 
let ou de detalhes é necessário na escala de amostragem. 
As funções de escala de mais alta resolução atuam como 
funções de impulso unitário discreto nas equações 7.3-4 
e 7.3-5, permitindo que f(n) seja utilizada como a entrada 
de escala (aproximação) para o primeiro banco de filtros de 
duas bandas [Odegard, Gopinath e Burrus (1992)]. 


E 
Exemplo 7.10 Cálculo de uma transformada rápida de 
wavelet1-D. 


Para ilustrar os conceitos apresentados acima, considere 
a função discreta f(n) = (1, 4, -3, 0} do Exemplo 7.8. Como 
naquele exemplo, calcularemos a transformada baseada nas 
funções de escala e wavelet de Haar. Neste caso, contudo, não 
utilizaremos diretamente as funções de base, como foi feito na 
DWT do Exemplo 7.8. Em vez disso, utilizaremos os vetores 
de escala e wavelet correspondentes dos exemplos 7.5 e 7.6: 


* hy(—n) | 2 
fín) = 
W,(J, n) 
*h,(-n) 2 
b IH(o)| 


1/V2 n=0,1 
h An) 
7 0 caso contrário (7.4-13) 
© W(J-1,n) 
* hy(—n) 2 eWJ-2,n) 
W,(J —1,n) 
*hd—n) 24 | @W,(J — 2,n) 


0 a /4 


Figura 7.18 


(a) Um banco de análise FWT de dois estágios ou duas escalas e (b) suas características de separação de frequências. 
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1/2 n=0 


h(n) -1/42 n=1 
0 caso contrario (7.4-14) 


Essas sao as funcoes utilizadas para construir os bancos 
de filtros FWT, elas nos dao os coeficientes de filtro. Observe 
que, como as funções de escala e wavelet de Haar sao or- 
tonormais, a Equacao 7.1-14 pode ser utilizada para gerar 
os coeficientes de filtro da FWT a partir de um unico filtro 
protótipo — como o h (n) na Tabela 7.2, que corresponde a 
g,(n) na Equação 71-14: 

Como a DWT calculada no Exemplo 7.8 era composta de 
elementos {W (0,0), W,,(0,0), W (1,0), W (1,1), calcularemos 
as FWT correspondentes de duas escalas para as escalas j = (0, 
1}. Isto é, J = 2 (há 2! = 2? amostras) e P = 2 (estamos traba- 
lhando com as escalas J- 1 =2-1=1leJ-P=2-2=0, nessa 
ordem). A transformada será calculada utilizando o banco de 
filtros de dois estágios da Figura 7.18(a). A Figura 7.19 mostra 
as sequências que resultam das subamostras e convoluções 
FWT necessárias. Observe que a própria função f(n) é a en- 
trada de escala (aproximação) para o banco de filtros mais à 
esquerda. Para calcular os coeficientes W ( 1,k) que aparecem 
na extremidade da ramificação superior da Figura 7.19, por 
exemplo, precisamos primeiro calcular a convolução de f(n) 
com h,(—n). Como explicado na Seção 3.4.2, isso requer ro- 
tacionar uma das funções em relação à origem, deslocando-a 
até que uma passe pela outra e calculando a soma do produ- 
to das duas funções ponto a ponto. Para as sequências (1, 4, 


-3, 0} e {-1/ 42,1142), isso produz 
f-1/42,-31 42,71 /2,-3/2,0] 


em que o segundo termo corresponde ao índice k = 2n = 
0. (Na Figura 7.19, os valores dos subscritos representam 
índices negativos, isto é, n < 0.) Quando realizamos a sub- 
amostragem selecionando apenas os pontos de índice par, ob- 


Tabela 7.2 Coeficientes do filtro ortonormal de Haar para h {n). 


temos W, (1, k) = {-3 / 2,3 / v2} para k = {0, 1}. Alterna- 
tivamente, podemos utilizar a Equação 7.4-12 para calcular 


WAL = (1) W (2) near o = ty (1) ® f (1) 


=D hos 


n=2k,k>0 


pet X(2k+D| por 

Aqui, substituímos 2k por n na convolução e emprega- 
mos / como uma variável local da convolução (isto é, para des- 
locar as duas sequências, uma em relação à outra). Há apenas 
dois termos na soma expandida porque há apenas dois valores 
diferentes de zero no vetor wavelet de ordem reversa h (— n). 
Substituindo k = 0, temos que W (1,0) = —3/ 2; para k= 1, 
temos que W, (1,1) = —3/ V2. Dessa forma, a sequência fil- 
trada e subamostrada é {-3142,-3/ v2}, o que corres- 
ponde ao resultado obtido anteriormente. As convoluções e 


subamostragens restantes são realizadas de forma similar. 
E 


Como era de esperar, é possível formular uma trans- 
formada rápida inversa para a reconstrução de f(n) a partir 
dos resultados da transformada direta. Chamada de trans- 
formada rápida inversa de wavelet (FWT"!), ela utiliza os veto- 
res de escala e wavelet empregados na transformada direta, 
com os coeficientes de aproximação de nível j e de deta- 


(CLNZ=3/NZ,7/NZ, -3/V2, 0} 


| 


x (-1//2,1/N2) 2} o W,(1,n) = (3/12, -3/V2} 
MEAG Wel) = {5/42 -3/12) q | HAND IND) | 2 © (0,0) = {4} 
[=25,4,=15] 
*(1/N2,1/N2) 2 
{1/V2, 5/2, 1/V¥2, -3/V2, 0} x {1/¥2, 1/2} 21 e W,(0,0) = {1} 
{2,5,1, -1,5} 
Figura 7.19 Cálculo de uma transformada rápida de wavelet de duas escalas para a sequência (1, 4, —3, 05, utilizando vetores de escala e 


wavelet de Haar. 


lhes, para gerar os coeficientes de aproximação de nível 
j+ 1. Observando a semelhança entre o banco de análise da 
FWT na Figura 7.17 e a porção da análise de duas sub-ban- 
das da Figura 7.6(a), podemos imediatamente postular o 
banco de filtros de síntese da FWT” necessários. A Figura 7.20 
detalha sua estrutura, que é idêntica à porção de síntese do 
sistema de decodificação e codificação em duas sub-bandas 
da Figura 7.6(a). A Equação 7.1-14 da Seção 7.1.2 define os 
filtros de síntese relevantes. Como observamos na ocasião, 
a reconstrução perfeita (para filtros ortonormais de duas 
bandas) requer q(n) = h (-n) para i = (0, 1). Isto é, os filtros 
de síntese e análise devem ser versões de ordem reversa um 
do outro. Como os filtros de análise da FWT (veja a Figura 
7.17) são h,(n) = hÃ- n) e h(n) =h,(— n), os filtros de 
síntese da FWT” necessários são g (n) = h,(— n) = h(n) e 
g(n) = h,(— n) = h (n). Devemos lembrar, contudo, que 
também é possível utilizar filtros de síntese e de análise bior- 
togonal, que não são versões de ordem reversa um do outro. 
Os filtros de síntese e de análise biortogonal são de modu- 
lação cruzada, como nas equações 7.1-10 e 7.1-11. 


O banco de filtros da FWT” da Figura 7.20 imple- 
menta o cálculo 


W(i+Lk)=h,(k) Wyk) + 
h(k) Wi GR) eso 


y 


(7.4-15) 


na qual W”' significa a superamostragem por 2 (isto é, 
inserir zeros em W, como definido pela Equação 7.1-1, de 
forma que ela seja o dobro de seu tamanho normal). Os 
coeficientes da superamostragem são filtrados pela con- 
volução de h (n) com h (n) e adicionados para gerar uma 
aproximação de escala mais alta. Basicamente, é criada 
uma melhor aproximação da sequência f(n) com maio- 
res detalhes e resolução. Como no caso da FWT direta, o 
banco de filtros inverso pode ser repetido como mostra a 
Figura 7.21, na qual é mostrada uma estrutura de duas 
escalas para calcular as duas escalas finais de uma recons- 
trução da FWT”. Esse processo de combinação de coefi- 


WJ -1,n) è 21 


W,(J — 2,n) @— 21 


| * h(n) 


W,(J — 1,7) 
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W,(j, n) @ 2t * h(n) 
OX Wj + 1.1) 
Wj, n) @— 21 * he(n) 


Figura 7.20 0 banco de filtros de síntese da FWT”. 


cientes pode ser estendido a qualquer número de escalas 
e garante a reconstrução perfeita da sequência f(n).' 


= 
Exemplo 7.11 Cálculo de uma transformada rápida 
inversa de wavelet 1-D. 

O cálculo da transformada rápida inversa de wavelet 
é um “espelhamento” de sua equivalente direta. A Figu- 
ra 7.22 ilustra o processo para a sequência considerada no 
Exemplo 7.10. Para dar início ao cálculo, é realizada a supe- 
ramostragem sobre os coeficientes de detalhes e aproxima- 
ção de nível O para gerar (0, 1) e (4, 0], respectivamente. A 


convolução com os filtros g,(n) = A,(n) = {1/-V2,1/V2,0} 
e g,(n)=h,(n)= [12,112] produz {1/-V2,1/ 2,0} 
e {41 N2,-41N2,0), que, quando adicionados, nos dão 
WALm)= {5/V2,-3/-V2}. Dessa forma, a aproximacao 


de nivel 1 da Figura 7.22, que corresponde à aproximação 
calculada da Figura 7.19, é reconstruída. Prosseguindo do 
mesmo modo, f(n) é formada à direita do segundo banco 
de filtros de síntese. 

E 


Concluímos nossa discussão sobre a transformada 
rápida de wavelet observando que, enquanto as funções 
da base de Fourier (isto é, as senoides) garantem a existên- 
cia da FFT, a existência da FWT depende da disponibilidade 
de uma função de escala para as wavelets que estão sendo 
utilizadas, bem como a ortogonalidade (ou biortogona- 


* h(n) 


Wald, n) 


©) 


W,(J —2,n)e— 21 


* h(n) 


Figura 7.21 


27 * hn) 


Banco de síntese da FWT” de dois estágios ou duas escalas. 


* Lembre-se de que, da mesma forma que na codificação em pirâmide (veja a Seção 7.1.1), as transformadas wavelet podem ser calculadas 
em um número de escalas definido pelo usuário. Para uma imagem 2, x 2, por exemplo, existem 1 + log,J escalas possíveis. 
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{-3/V2,0, -3/ 2,0) 


2 * {1/V2, 1/2} 


t {-1,5; 1,5; —1,5; 1,5; 0} 
W, n) = (-3/N2,-3/2) 6— 21 * {1/V2, -1/V2} 
{4,0} 
} {4 NZ, —4 N2, 0} 
fn) = W2, n) 
W,(0,0) = {4} @— 2 * (1/42, —1/N2) | W,(1,.n) = {5/42 -3/ ND) (+ = [1,4,-3,0) 
(+) 
p 


W40,0) = {1} 6 21 x {1/V2, 1/V2} 


{1,0} 


4 {2,5; 2,5; —1,5;-1,5; 0} 
{5/\2,0, -3/42,0) 


4 (1/N2,1/N2,0) 


Figura 7.22 Cálculo de uma transformada rápida inversa de wavelet de duas escalas de sequência {1,4,-152;-15v2} com funções wa- 


velet e de escala de Haar. 


lidade) da função de escala e wavelets correspondentes. 
Dessa forma, a wavelet de chapéu mexicano da Equação 
73-11, que não tem uma função de escala que a acom- 
panha, não pode ser utilizada no cálculo da FWT. Em ou- 
tras palavras, não podemos construir um banco de filtros 
como o da Figura 7.17 para a wavelet de chapéu mexica- 
no; ela não satisfaz as premissas básicas para a metodo- 
logia da FWT. 


Por fim, observamos que, apesar de o tempo e a 
frequência normalmente serem vistos como domínios 
diferentes na representação das funções, eles estão inex- 
tricavelmente ligados. Quando tentamos analisar uma 
função simultaneamente no tempo e na frequência, nos 
deparamos com o seguinte problema: se quisermos infor- 
mações precisas sobre o tempo, precisamos aceitar alguma 
imprecisão em relação à frequência e vice-versa. Esse é o 
princípio da incerteza de Heisenberg aplicado ao processamen- 
to de informações. Para ilustrar graficamente esse prin- 
cípio, cada função de base utilizada na representação de 
uma função pode ser vista na forma de um esquema com 
janelas, em um plano de tempo-frequência. Cada janela, tam- 
bém chamada de célula de Heisenberg ou retângulo de Heisen- 
berg, mostra o conteúdo de frequência da função de base 


que ela representa e onde a função de base se localiza no 
tempo. As funções de base ortonormais são caracterizadas 
por janelas que não se sobrepõem. 


A Figura 7.23 mostra as janelas de tempo-frequên- 
cia para (a) uma função impulso (isto é, no domínio do 
tempo convencional), (b) uma base senoidal (FFT) e (c) 
uma base FWT. Cada janela é uma região retangular nas 
figuras 7.23(a) a (c); a altura e a largura da região defi- 
nem as características de frequência e tempo das funções 
que podem ser representadas utilizando a função de base. 
Observe que a base padrão no domínio do tempo na Fi- 
gura 7.23(a) identifica os instantes nos quais os eventos 
ocorrem, mas não proporciona nenhuma informação de 
frequência (a largura de cada retângulo na Figura 7.23(a) 
deve ser considerada como um instante no tempo). Des- 
sa forma, para representar uma senoide de frequência 
única como uma expansão utilizando funções de base 
de impulso, cada função de base é necessária. A base 
senoidal da Figura 7.23(b), por outro lado, identifica as 
frequências presentes nos eventos que ocorrem em lon- 
gos períodos, mas não proporciona nenhuma resolução 
no tempo (a altura de cada retângulo na Figura 7.23(b) 
deve ser considerada como uma única frequência). Des- 


Frequência 


Tempo 


Figura 7.23 Tiles (janelas) de tempo 


Tempo 


Tempo 


requência para as funções de base associadas com (a) dados amostrados, (b) a FFT e (c) a FWT. Observe 


que as faixas horizontais dos retângulos de mesma altura em (c) representam as escalas da FWT. 


sa forma, a senoide de frequência única representada 
por um número infinito de funções de base de impulso 
pode ser representada como uma expansão envolvendo 
uma função de base senoidal. A resolução de tempo e 
frequência das janelas da FWT na Figura 7.23(c) va- 
ria, mas a área de cada janela (retângulo) é a mesma. 
Em baixas frequências, as janelas são mais curtas (isto 
é, têm uma melhor resolução na frequência ou menor 
ambiguidade em relação à frequência), mas são mais 
largos (o que corresponde a uma resolução de tempo 
mais pobre ou maior ambiguidade no que se refere ao 
tempo). Em altas frequências, a largura do tile é menor 
(de forma que a resolução no tempo é melhorada) e a 
altura da janela é maior (o que significa que a resolução 
na frequência é piorada). Dessa forma, as funções de 
base da FWT proporcionam um meio-termo entre os dois 
casos extremos das figuras 7.23(a) e (b). Essa diferença 
fundamental entre a FFT e a FWT foi observada na intro- 
dução do capítulo, e é importante na análise de funções 
não estacionárias cujas frequências variam com o tempo. 


7.5 Transformadas wavelet em duas 
dimensões 


As transformadas unidimensionais das seções ante- 
riores podem ser facilmente estendidas para funções bi- 
dimensionais, como as imagens. Em duas dimensões, são 
necessárias uma função de escala bidimensional, q(x, y), 
e três wavelets bidimensionais, Y” (x, y), Y” (x, y) e W? (x, y). 
Cada uma é o produto de duas funções unidimensionais. 
Excluindo produtos que geram resultados unidimensio- 
nais, como »(x)w(x), os quatro produtos restantes geram 
a função de escala separável 


(p(X, y) = P(x)p(x) (7.5-1) 


e as wavelets separáveis, “direcionalmente sensíveis” 


Y” (x y) = pp) (7.5-2) 
p(x y) = py (9) (7.5-3) 
WP (x, y) = pty) (7.5-4) 


Essas wavelets medem variações da função — varia- 
ções de intensidade para imagens — ao longo de diferen- 
tes direções: y” mede variações ao longo de colunas (por 
exemplo, bordas horizontais), %” responde a variações ao 
longo de linhas (como bordas verticais) e 1)? corresponde 
a variações ao longo de diagonais. A sensibilidade dire- 
cional é uma consequência natural da separabilidade nas 
equações 7.5-2 a 7.5-4; ela não aumenta a complexidade 
computacional da transformada 2-D discutida nesta seção. 


Dadas as funções wavelet e de escala bidimensionais 
separáveis, a extensão da DWT 1-D para duas dimensões 
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é direta. Primeiro definimos as funções de base escalona- 
das e transladadas: 


P; minX I) = V(x- m, žy- n) (7.5-5) 
v, mn (x, y) = DP (2x =M, 2y = n), 
oe (7.5-6) 


sendo que o indice i identifica as wavelets direcionais nas 
equações 7.5-2 a 7.5-4. Ao invés de um expoente, i é um 
sobrescrito que assume os valores H, Ve D. A transfor- 
mada wavelet discreta da imagem f(x, y) de tamanho M x 
N é, então, 


. 1 M-1N-1 
W, (Jam n) = -= x F(X VP mn(XY) (7.5-7) 
MN x=0 y=0 i 
e ] Mana : 
Wj, n) = = F(X YW imn XY) 
MN x=0 y=0 
i={H,V,D} (7.5-8) 


Como no caso unidimensional, j é uma escala 
inicial arbitrária e os coeficientes W Go m, n) definem 
uma aproximação de f(x, y) na escala j,. Os coeficientes 
W, (j, m, n) adicionam detalhes horizontais, verticais e 
diagonais para as escalas j > j,. Normalmente definimos 
j, = O e selecionamos N = M = 2º, de forma que j = 0, 1, 
2,..,J-lem=n=0,1,2,...,2)-1. Dados W,eW; 
nas equações 7.5-7 e 7.5-8, f(x, y) é obtida por meio da 
transformada wavelet discreta inversa 


=F ZZW (doe Ps ma) 
1 


— E LEDWijm ia (XY) 
MN i=H,V,D j=jym n D 


+ 


(7.5-9) 


Do mesmo modo que a transformada wavelet dis- 
creta 1-D, a DWT 2-D pode ser implementada utilizando 
filtros e subamostragens. Com funções wavelet e de es- 
cala bidimensionais separáveis, simplesmente calculamos 
a FWT 1-D das linhas de f(x, y) e, em seguida, a FWT 
1-D das colunas resultantes. A Figura 7.24(a) mostra o 
processo na forma de um diagrama de blocos. Observe 
que, como seu equivalente unidimensional da Figura 
7.17, a FWT 2-D “filtra” os coeficientes de aproximação 
da escala j + 1 para construir os coeficientes de detalhes 
e aproximação da escala j. No caso bidimensional, contu- 
do, temos três conjuntos de coeficientes de detalhes — os 
detalhes horizontais, verticais e diagonais. 


* Agora que estamos lidando com imagens 2-D, f(x, y) é uma fun- 
ção discreta ou sequência de valores ex e y são variáveis discretas. 
As funções wavelet e de escala nas equações 7.5-7 e 7.5-8 são 
amostradas ao longo de seu suporte (como foi feito no caso 1-D 
da Seção 7.3.2). 
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Figura 7.24 


O banco de filtros de escala única da Figura 7.24(a) 
pode ser “repetido” (ligando a saída de aproximação à en- 
trada de um outro banco de filtros) para produzir uma 
transformada de escala P na qual a escala é iguala J-1, 
J-2,..., J-P. Como no caso unidimensional, a imagem 
fix, y) é utilizada como a entrada W (J, m, n). Efetuando a 
convolução de suas linhas com hA- n)eh,(—n) e a su- 
bamostragem de suas colunas, obtemos duas subimagens 
cujas resoluções horizontais são reduzidas por um fator de 
2. O componente passa-alta ou de detalhes caracteriza as 
informações de alta frequência da imagem com orienta- 


A transformada rápida de wavelet 2-D: (a) banco de filtros de análise; (b) decomposição resultante e (c) banco de filtros de síntese. 


ção vertical; o componente passa-baixa, de aproximação, 
contém as informações de baixa frequência, verticais. As 
duas subimagens são, então, filtradas e subamostradas ao 
longo das colunas para gerar quatro subimagens de saída 
de um quarto do tamanho — W, W,#, W,” e WP Essas 
subimagens, mostradas no centro da Figura 7.24(b) são 
os produtos internos de f(x, y) com as funções wavelet e de 


* Observe como W W,”, We W? são arranjadas na Figura 7.24(b). 
Para cada escala que é calculada, a aproximação anterior, sobre a 
qual elas se basearam, é substituída. 


escala bidimensionais nas equações 7.5-1 a 7.5-4, segui- 
das da subamostragem por dois em cada dimensão. Duas 
interações do processo de filtragem produzem a decom- 
posição em duas escalas mostrada na extremidade direita 
da Figura 7.24(b). 


A Figura 7.24(c) mostra o banco de filtros de síntese 
que reverte o processo que acabamos de descrever. Como 
era de se esperar, o algoritmo de reconstrução é similar 
ao caso unidimensional. Em cada interação, quatro subima- 
gens de aproximação e detalhes, de escala j, são submetidas 
à superamostragem e à convolução com dois filtros uni- 
dimensionais — um operando nas colunas e o outro nas 
linhas das subimagens. A soma dos resultados produz 
a aproximação de escala j + 1 e o processo é repetido até a 
imagem original ser reconstruída. 


= 
Exemplo 7.12 Cálculo de uma transformada rápida de 
wavelet2-D. 


A Figura 7.25(a) é uma imagem 128 x 128 gerada por 
computador que consiste em pulsos senoidais 2-D em um 
fundo preto. O objetivo deste exemplo é ilustrar o cálculo 
da FWT 2-D dessa imagem. As figuras 7.25(b) a (d) mostram 
três FWTs da imagem da Figura 7.25(a). O banco de filtros 
2-D da Figura 7.24(a) e os filtros de decomposição mos- 
trados nas figuras 7.26(a) e (b) foram utilizados para gerar 
todos os três resultados.” 


a 


Figura 7.25 Cálculo de uma FWT 2-D de três escalas: (a) a imagem 
original; (b) uma FWT de uma escala; (c) uma FWT de duas escalas; e 
(d) uma FWT de três escalas. 


* Os vetores de escala e wavelet utilizados neste exemplo serão des- 
critos mais adiante. Aqui, nos concentramos no funcionamento 
do cálculo da transformada que independe dos coeficientes de 
filtro empregados. 
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A Figura 7.25(b) mostra a FWT de uma escala da ima- 
gem da Figura 7.25(a). Para calcular essa transformada, a 
imagem original foi utilizada como a entrada do banco de 
filtros da Figura 7.24(a). As quatro saídas resultantes de de- 
composição de um quarto do tamanho (isto é, a aproximação 
e os detalhes horizontais, verticais e diagonais) foram arran- 
jadas de acordo com a Figura 7.24(b) para produzir a imagem 
da Figura 7.25(b). Um processo similar foi utilizado para gerar 
a FWT de duas escalas da Figura 7.25(c), mas a entrada para 
o banco de filtros foi alterada para a subimagem de aproxi- 
mação de um quarto do tamanho do canto superior esquerdo 
da Figura 7.25(b). Como podemos ver na Figura 7.25(c), essa 
subimagem de um quarto do tamanho foi, então, substituí- 
da pelos quatro resultados da decomposição de um quarto do 
tamanho (agora com 1/16 do tamanho da imagem original) 
que foram gerados no segundo passo da filtragem. Por fim, 
a Figura 7.25(d) é a FWT de três escalas resultante quando a 
subimagem do canto superior esquerdo da Figura 7.25(c) foi 
utilizada como entrada do banco de filtros. Cada passagem 
através do banco de filtros produziu quatro imagens de saída 
de um quarto do tamanho que foram substituídas pela entra- 
da da qual elas foram deduzidas. Observe a natureza direcio- 
nal das subimagens baseadas em wavelet, W *, Wo e W? em 
cada escala. 
E 
Os filtros de decomposição utilizados no exemplo 
anterior fazem parte de uma família bem conhecida de 
wavelets chamada de symlets, uma abreviação de “sym- 
metrical wavelets”, que quer dizer “wavelets simétricas”. 
Apesar de não serem perfeitamente simétricas, elas fo- 
ram elaboradas para ter a menor assimetria e o maior 
número de momentos que se aproximam de zero” para 
um dado suporte compacto [Daubechies (1992)].™ As 
figuras 7.26(e) e 7.26(f) mostram as symlets 1-D de quar- 
ta ordem (isto é, funções wavelet e de escala). As figuras 
7.26(a) a 7.26(d) mostram os filtros de decomposição e 
reconstrução correspondentes. Os coeficientes do filtro 
de reconstrução passa-baixa g,(n) = h (n) para0<n<7 
Tabela 7.3 Coeficientes de filtro sym/et ortonormal de quarta ordem 
para h (n). [Daubechies (1992).] 


= 
> 
= 


JON ejoni o 


“ O k-ésimo momento do wavelet u(x) é m(k) = Jw dx. Momen- 
tos zero perturbam a suavidade das funções de escala e wavelet e 
nossa capacidade de representá-las como polinômios. Um symlet 
de ordem N tem N momentos que se aproximam de zero. 

“ Lembre-se de que o suporte compacto de uma função é o inter- 
valo no qual a função tem valores diferentes de zero. 
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são apresentados na Tabela 7.3. Os coeficientes dos filtros 
ortonormais restantes são obtidos utilizando a Equação 
71-14. A Figura 7.26(g), uma representação gráfica de 
baixa resolução da wavelet w(x, y), ilustra como uma fun- 
ção de escala e wavelet unidimensional pode se combinar 
para formar uma wavelet bidimensional separável. 


a ho(n) = h(n) 
12 

1 be 
08+ 
06 H 
04+ 


Concluímos esta seção com dois exemplos que de- 
monstram a utilidade das wavelets no processamento de 
imagens. Como no dominio de Fourier, a abordagem 
básica é: 

Passo 1. Calcular uma transformada de wavelet 2-D 

de uma imagem. 
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Figura 7.26 Symlets de quarta ordem: (a) a (b) filtros de decomposição; (c) a (d) filtros de reconstrução; (e) a wavelet unidimensional; (f) a 
função de escala unidimensional; e (g) uma das três wavelets bidimensionais, (x,y). Consulte os valores de hin) para 0 < n< 7 na Tabela 7.3. 


Passo 2. Alterar a transformada. 


Passo 3. Calcular a transformada inversa. 


Como os vetores de escala e wavelet da DWT são uti- 
lizados como filtros passa-baixa e passa-alta, a maior par- 
te das técnicas de filtragem baseadas em Fourier tem uma 
contraparte equivalente no “domínio wavelet”. 


= 
Exemplo 7.13 Detecção de borda utilizando wavelets. 


A Figura 7.27 proporciona uma ilustração simples dos 
três passos apresentados anteriormente. Na Figura 7.27(a), 
o componente de aproximação da mais baixa escala da 
transformada wavelet discreta mostrado na Figura 7.25(c) foi 
eliminado definindo seus valores em zero. Como mostra a 
Figura 7.27(b), o efeito final do cálculo da transformada wa- 
velet inversa utilizando esses coeficientes é o realce de borda, 
que lembra os resultados de aguçamento de imagem com base 
na abordagem de Fourier discutidos na Seção 4.9. Observe 
como as transições entre o sinal e o fundo são bem delineadas, 
apesar de serem transições senoidais relativamente suaves. 
Ao zerar também os detalhes horizontais — veja as figuras 
7.27(c) e (d) —, podemos isolar as bordas verticais. 
= 


= 
Exemplo 7.14 Remoção de ruídos utilizando wavelets. 


Como um segundo exemplo, considere a imagem CT de 
uma cabeça humana mostrada na Figura 7.28(a). Como pode 
ser visto no fundo, a imagem foi uniformemente corrompida 
com ruído branco aditivo. Apresentamos a seguir um procedi- 


Dit 


Figura 7.27 Modificando uma DWT para a detecção de bordas: (a) 
e (c) são decomposições de duas escalas com eliminação de coefi- 
cientes selecionados; (b) e (d) são as reconstruções correspondentes. 
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mento geral baseado em wavelets para a redução de ruídos (denoi- 
sing) da imagem (isto é, suprimindo a parte do ruído): 
Passo 1. Escolha uma wavelet (por exemplo, Haar, sym- 
let, ...) e o número de níveis (escalas), P, de decomposi- 
ção. Depois calcule a FWT da imagem com ruído. 


Passo 2. Limiarize os coeficientes de detalhes. Em outras 
palavras, selecione e aplique um limiar aos coeficien- 
tes de detalhes a partir das escalas J- 1 a J — P. Isso 
pode ser feito por meio da limiarização rígida, o que 
significa zerar os elementos cujos valores absolutos es- 
tão abaixo do limiar, ou por meio da [imiarização suave, 
que envolve primeiro zerar os elementos cujos valo- 
res absolutos estão abaixo do limiar e depois ajustar 
os coeficientes diferentes de zero na direção do zero. 
A limiarização suave elimina a descontinuidade (no li- 
miar) inerente à limiarização rígida. (Para uma discus- 
são sobre a limiarização, veja o Capítulo 10.) 

Passo 3. Calcule a transformada wavelet inversa (isto 
é, faça a reconstrução das wavelets) utilizando os coe- 
ficientes de aproximação originais no nivel J- Pe os 


Figura 7.28 
uma imagem de CT com ruído de uma cabeça humana; (b), (c) e (e) vá- 
rias reconstruções após a limiarização dos coeficientes de detalhes; (d) 
e (f) as informações removidas durante a reconstrução de (c) e (e). (Ima- 
gem original: cortesia do Centro Médio da Universidade de Vanderbilt.) 


Modificação de uma DWT para a redução de ruídos: (a) 
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coeficientes de detalhes modificados para os níveis 
J-laJ-P. 
A Figura 7.28(b) mostra o resultado dessas operações 
com symlets de quarta ordem, duas escalas (isto é, P = 2) e 
um limiar global que foi determinado interativamente. Ob- 
serve a redução do ruído e o borramento nas bordas da ima- 
gem. Essa perda de detalhes da borda é significativamente 
reduzida na Figura 7.28(c), que foi gerada simplesmente 
zerando os coeficientes de detalhes de mais alta resolução 
(sem limiarização dos detalhes de resolução inferior) e re- 
construindo a imagem. Aqui, quase todo o ruído de fundo 
foi eliminado, e as bordas apresentam apenas uma ligeira 
perturbação. A imagem de diferença da Figura 7.28(d) mos- 
tra as informações perdidas no processo. Esse resultado foi 
gerado calculando a FWT inversa da transformada de duas 
escalas com todos os coeficientes de detalhes zerados, com 
exceção dos coeficientes da mais alta resolução. Como pode 
ser visto, a imagem resultante contém a maior parte do ruí- 
do da imagem original e parte das informações de borda. As 
figuras 7.28(e) e 7.28(f) são incluídas para mostrar o efeito 
negativo de eliminar todos os coeficientes de detalhes.” Isto 
é, a Figura 7.28(é) uma reconstrução da DWT na qual os de- 
talhes nos dois níveis da transformada de duas escalas foram 
zerados; a Figura 7.28(f) mostra as informações perdidas. 
Observe o aumento significativo das informações de bordas 
na Figura 7.28(f) e a redução correspondente nos detalhes 
das bordas na Figura 7.28(e). 
E 


7.6 Pacotes wavelet 


A transformada rápida de wavelet decompõe uma 
função em uma soma de funções de escala e wavelet cujas 
larguras de banda são logaritmicamente relacionadas. 
Isto é, o conteúdo de baixa frequência (da função) é re- 
presentado utilizando funções (de escala e wavelet) com 
larguras de banda estreitas, ao passo que o conteúdo de 
alta frequência é representado utilizando funções com 
larguras de banda maiores. Se olharmos ao longo do 
eixo da frequência no plano tempo-frequência da Figura 
7.23(c), isso fica imediatamente visível. Cada faixa ho- 
rizontal das janelas de altura constante, que contém as 
funções de base para uma única escala da FWT, aumen- 
ta logaritmicamente em altura à medida que subimos no 
eixo da frequência. Se quisermos um maior controle so- 
bre a partição do plano de tempo-frequência (por exem- 
plo, bandas menores nas frequências superiores), a FWT 
deve ser generalizada para gerar uma decomposição mais 
flexível — chamada de pacotes wavelet ou wavelet packet 
[Coifman e Wickerhauser (1992)]. O custo dessa genera- 


* Como só os coeficientes de detalhes da mais alta resolução foram 
mantidos ao gerar a Figura 7.28(d), a transformada inversa é sua 
contribuição para a imagem. Da mesma forma, a Figura 7.28(f) é 
a contribuição de todos os coeficientes de detalhes. 


lização é um aumento na complexidade computacional 
de O(M) para a FWT para O(M log, M) considerando o 
pacote wavelet. 


Considere novamente o banco de filtros de duas esca- 
las da Figura 7.18(a) — mas imagine a decomposição como 
uma árvore binária. A Figura 7.29(a) detalha a estrutura da 
árvore e liga os coeficientes apropriados de escala e wavelet 
da FWT (da Figura 7.18(a)) a seus nós. Ao nó-raiz são atribu- 
ídos os coeficientes de aproximação de escala mais alta, que 
são amostras da própria função, ao passo que as folhas her- 
dam as saídas dos coeficientes de aproximação e detalhes 
da transformada. O nó intermediário isolado, W (J — 1, n), 
é uma aproximação do banco de filtros que, em última ins- 
tância, é filtrado para se tornar dois nós-folhas. Observe que 
os coeficientes de cada nó são os pesos de uma expansão 
linear que produz um “pedaço” de banda limitada do nó- 
-raiz f(n). Como qualquer um desses pedaços é um elemento 
de um subespaço de escala ou wavelet conhecido (veja as 
seções 7.2.2 e 7.2.3), podemos substituir os coeficientes ge- 
radores na Figura 7.29(a) pelo subespaço correspondente. O 
resultado é a árvore de análise de subespaço da Figura 7.29(b). 
Apesar de a variável W ser utilizada para expressar tanto 
coeficientes quanto subespaços, é possível distinguir os dois 
valores pelo formato de seus subscritos. 


Esses conceitos são ilustrados pela Figura 7.30, na 
qual um banco de análise de uma FWT de três escalas, 
a árvore de análise e o espectro de frequência corres- 
pondentes são representados. Diferentemente da Figura 
7.18(a), os índices utilizados no diagrama de blocos da 
Figura 7.30(a) foram alterados para serem equivalentes à 
árvore de análise da Figura 7.30(b) — bem como ao es- 
pectro da Figura 7.30(c). Dessa forma, para ser correta, a 
saída do bloco superior esquerdo (filtro + subamostragem) 
do diagrama deveria ser W (J — 1, n), mas ela foi altera- 
da para W, | — que corresponde ao subespaço da função 
gerada pelos coeficientes da transformada W (J — 1, n). 
Esse subespaço corresponde à folha superior direita da 
árvore de análise associada, bem como ao segmento mais 
à direita (de maior largura de banda) do espectro de fre- 
quência correspondente. 


WJ-1,n) WyiJ-1,n) Via Wi 
W,(J—2,n) W,(J— 2,7) Via W2 
Figura 7.29 (a) Uma árvore de coeficiente e (b) uma árvore de aná- 


lise para o banco de análise da FWT de duas escalas da Figura 7.18. 
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Figura 7.30 Um banco de filtros da FWT de três escalas: (a) diagrama de blocos; (b) árvore de decomposição espacial; e (c) característica de 


separação do espectro. 


As árvores de análise proporcionam uma maneira 
compacta e informativa de representar as transformadas 
wavelet de múltipla escala. Elas são fáceis de elaborar, re- 
querem menos espaço do que seus diagramas de blocos 
correspondentes baseados em subamostragens e filtros e 
facilitam a detecção de decomposições válidas. A árvore 
de análise de três escalas da Figura 7.30(b), por exemplo, 
possibilita as três opções de expansão a seguir: 


V= VWa (7.6-1) 
V=V,,0W,,OW,, (7.6-2) 
Vj=V,_,0W,,0W,,@W,_, (7.6-3) 


Elas correspondem às decomposições da FWT de 
uma, duas e três escalas da Seção 7.4, e podem ser obti- 
das a partir da Equação 7.2-27 da Seção 7.2.3, fazendo 
j, =J-P para P = (1,2, 3}. Em geral, uma árvore de aná- 
lise da FWT de escala P suporta decomposições únicas. 

As árvores de análise também constituem um meca- 
nismo eficiente para representar pacotes wavelet, que não 
passam de transformadas wavelet convencionais nas quais os 
detalhes são filtrados interativamente. Dessa forma, a árvore 
de análise da FWT de três escalas da Figura 7.30(b) passa 
a ser a árvore do pacote wavelet de três escalas da Figura 
7.31. Observe o subscrito adicional que foi incluído. O 
primeiro subscrito de um nó de dois subscritos identifica 
a escala do nó-pai da FWT do qual ele descende. O se- 


gundo — uma string de tamanho variável formada pelas 
letras As e Ds — codifica o caminho do pai ao nó. Uma 
letra 4 designa a filtragem de aproximação, ao passo que 
a letra D indica uma filtragem de detalhes. O subespaço 
Wi par Por exemplo, é obtido “filtrando” os coeficien- 
tes da FWT de escala J - 1 (isto é, o pai W,, na Figura 
7.31) por meio de um filtro de detalhe adicional (gerando 
W p} Seguido por um filtro de aproximação (que nos 
dá W a): As figuras 7.32(a) e (b) mostram o banco de 
filtros e as características de separação do espectro na 
árvore de análise da Figura 7.31. Observe que as saídas 
“naturalmente ordenadas” do banco de filtros da Figura 
7.32(a) foram rearranjadas com base no conteúdo de 
frequência da Figura 7.32(b) (veja o Exercício 7.25 para 
saber mais sobre wavelets “ordenadas por frequência”). 


A árvore de pacotes de três escalas da Figura 7.31 
praticamente triplica o número de decomposições (e das 
janelas de tempo-frequência associadas) disponíveis a 
partir da árvore de FWT de três escalas. Lembre-se que, 
em uma FWT normal, dividimos, filtramos e subamostra- 
mos somente as bandas passa-baixa. Isso cria uma relação 
logarítmica fixa (de base 2) entre as larguras de banda 
dos espaços de escala e wavelet utilizados na representa- 
ção de uma função [veja a Figura 7.30(c)]. Dessa forma, 
enquanto a árvore de análise da FWT de três escalas da 
Figura 7.30(a) oferece três decomposições possíveis — 
definidas pelas equações 7.6-1 a 7.6-3 —, a árvore de 
pacotes wavelet da Figura 7.31 suporta 26 diferentes de- 
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Figura 7.31 Uma árvore de análise de pacotes wavelet de três escalas. 


composições. Por exemplo, V, [e, portanto, a função f(n)] pacotes wavelet unidimensionais de escala P (e as árvores 


pode ser expandida como” de análise associadas de nível P + 1) suportam 
V= V, 8 W, 50 W, 440 W 308 W144 D(P + 1) = [D(P)P + 1 (7.6-6) 
Wara Werat Warm (7.6-4) decomposições únicas, sendo D(1) = 1. Com um número 


tão grande de expansões válidas, as transformadas basea- 

das em pacotes proporcionam um maior controle sobre a 
(7.6-5) partição do espectro da função decomposta. O custo des- 

se controle é uma maior complexidade computacional 
cujo espectro é representado na Figura 7.33. Observe a [compare o banco de filtros da Figura 7.30(a) com o da 
diferença entre esse último espectro e o espectro total de Figura 7.32(a)]. 


cujo espectro é mostrado na Figura 7.32(b), ou 


OW 


J—1,DD 


= Va é W, p48 W, 


= 1, DA 


pacotes da Figura 7.32(b), ou o espectro da FWT de três Agora, considere o banco de filtros bidimensional de 
escalas da Figura 7.30(c). Em geral, as transformadas de quatro bandas da Figura 7.24(a). Como observamos na 
a 
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Figura 7.32 (a) Um banco de filtros e (b) características de separação de espectro de uma árvore de análise completa de pacote wavelet de 
três escalas. 


Lembre que & expressa a união dos espaços (como a união de conjuntos). As 26 decomposições associadas à Figura 7.31 são determinadas 
por várias combinações de nós (espaços) que podem ser combinados para representar o nó-raiz(espaço) no topo da árvore. As equações 
7.6-4 e 7.6-5 definem duas delas. 


|H(o)| 


0 m/2 


57/8 3m/4 


Figura 7.33 Espectro da decomposição da Equação 7.6-5. 


Seção 7.5, ele divide a aproximação W (j + 1, m, n) nas 
saídas, W (j, m, n), W,"(j, m, n), WYO, m, n) e WI m, 

n). Como no caso unidimensional, ele pode ser “repetido” 
para gerar P transformadas de escala para as escalas j = 
J-1,J-2,...,J-P, com W (J, m, n) = f(m, n). O es- 
pectro resultante da primeira interação (isto é, utilizando 
j+ l =J na Figura 7.24(a)) é mostrado na Figura 7.34(a). 
Observe que ele divide o plano de frequências em qua- 
tro áreas iguais. A banda de baixa frequência no centro 
do plano coincide W (J — l,m ,n) e o espaço de escala 
V, (Essa nomenclatura está de acordo com o caso unidi- 
mensional.) Para representar a natureza bidimensional da 
entrada, contudo, agora temos três (em vez de um) o 
paços wavelet. Eles são indicados por Wi |, WY eW? 
correspondem aos coeficientes Wi(J — 1, m, Hi wi yj: — i 
m,n) e Wild — 1, m,n), respectivamente. A Figura 7,34(b) 
mostra a árvore de análise da FWT quaternária de escala úni- 
ca e quatro bandas. Observe os sobrescritos que vinculam 
as designações do subespaço wavelet com seus coeficientes 
de transformada equivalentes. 


A Figura 7.35 mostra uma árvore de análise de pa- 
cotes wavelet bidimensional de três escalas. Como sua 
equivalente unidimensional na Figura 7.31, o primeiro 
subscrito de cada nó que é descendente de um nó de deta- 
lhe da FWT convencional é a escala desse nó de detalhe 
pai. O segundo subscrito — uma string de tamanho variá- 
vel composta por As, Hs, Vs e Ds — codifica o caminho 
do pai ao nó que está sendo analisado. O nó indicado por 
wt por exemplo, é obtido pela “filtragem de linha/ 


j-1, VD 
coluna” dos coeficientes de detalhe horizontal da FWT de 
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Figura 7.34 


A primeira decomposição de uma FWT bidimensional: 
(a) o espectro (b) e a árvore de análise do subespaco. 


escala J — 1 (isto é, o pai W?_, na Figura 7.35) por meio 
de um filtro de detalhe /aproximação adicional (resultan- 
do em W |, ,), seguido de um filtro de detalhe/detalhe 
(que nos dá We “1 yp) Uma árvore de pacotes wavelet bi- 
dimensional de escala P suporta 


D(P + 1) = [D(P)|¢ + 1 


expansões únicas, nas quais D(1) = 1. Dessa forma, a ár- 
vore de três escalas da Figura 7.35 oferece 83.522 decom- 
posições possíveis. O problema de escolher entre elas será 
o tema do próximo exemplo. 


(7.6-7) 


= 
Exemplo 7.15 Decomposições de pacotes wavelet 
bidimensionais. 


Como vimos na discussão anterior, uma única árvore de 
pacotes wavelet apresenta várias opções de decomposição. De 
fato, o número de decomposições possíveis costuma ser tão 
grande que é impraticável, se não impossível, enumerá-los ou 
analisá-los individualmente. Um algoritmo eficiente para des- 
cobrir decomposições ótimas em relação a critérios específicos 
de aplicação é altamente desejável. Como veremos, as funções 
de custo clássicas baseadas em entropia e energia são aplicá- 
veis em muitas situações e são apropriadas para a utilização 
em algoritmos de busca para árvores binárias e quaternárias. 


Considere o problema de reduzir a quantidade de da- 
dos necessários para representar a imagem 400 x 480 da 
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Figura 7.35 Uma árvore de decomposição completa em pacotes wavelet de três escalas. Só uma parte da árvore é apresentada. 
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impressão digital na Figura 7.36(a). Discutiremos em deta- 
lhes a compressão de imagens no Capítulo 8. Neste exem- 
plo, queremos selecionar a “melhor” decomposição de 
pacotes wavelet de três escalas como um ponto de partida 
para o processo de compressão. Utilizando árvores de pa- 
cotes wavelet de três escalas, temos 83.522 (veja a Equação 
7.6-7) decomposições potenciais. A Figura 7.36(b) mostra 
uma delas — uma decomposição completa de 64 folhas, de 
pacotes wavelet, como a árvore de análise da Figura 7.35. 
Observe que as folhas da árvore correspondem às sub- 
bandas do arranjo 8 x 8 das subimagens decompostas da 
Figura 7.36(b). A probabilidade de essa decomposição es- 
pecífica de 64 folhas ser de alguma forma ótima para fins 
de compressão, no entanto, é relativamente baixa.” Na au- 
sência de um critério apropriado de otimização, não pode- 
mos confirmar nem negar isso. 

Um critério razoável para selecionar uma decompo- 
sição para a compressão da imagem da Figura 7.36(a) é a 
função de custo aditivo 


E(f) =X] f(m,n) 


Essa função proporciona uma medida possível do conteú- 
do de energia da função bidimensional f.” De acordo com essa 
medida, a energia da função f(m, n) = 0 para todo men é 0. 
Valores altos de E, por outro lado, indicam funções com mui- 
tos valores diferentes de zero. Como a maioria dos esquemas 
de compressão baseados em transformadas funciona por trun- 
camento ou limiarização dos pequenos coeficientes em zero, a 
função custo que maximiza o número de valores próximos de 


(7.6-8) 


Figura 7.36 
cortesia do Instituto Nacional de Padrões e Tecnologia.) 


zero representa um critério razoável para selecionar uma “boa” 
decomposição a partir do ponto de vista da compressão. 


A função custo que acabamos de descrever é ao mes- 
mo tempo simples em termos computacionais e facilmente 
adaptável em rotinas de otimização da árvore. O algoritmo 
de otimização deve utilizar a função para minimizar o “custo” 
dos nós-folha na árvore de decomposição. Nós-folha de ener- 
gia mínima devem ser favorecidos por apresentarem valores 
próximos de zero, o que leva a uma maior compressão. Como 
a função custo da Equação 7.6-8 é uma medida local que uti- 
liza apenas as informações disponíveis do nó que está sendo 
analisado, um algoritmo eficiente para encontrar soluções de 
energia mínima é facilmente construído como se segue: 


Para cada nó da árvore de análise, começando pela raiz 
e prosseguindo de um nível ao outro até as folhas: 


Passo 1. Calcule tanto a energia do nó, indicada por E, 
(de energia do pai), e a energia de seus quatro descen- 
dentes — indicados por E,, E,, E, e Ep. Para decompo- 
sições em pacotes wavelet bidimensionais, o pai é um 
arranjo bidimensional de coeficientes de detalhes ou 
aproximação; os descendentes são as aproximações, 
os detalhes horizontais, verticais e diagonais filtrados. 


Passo 2. Se a energia combinada dos descendentes for 
menor que a energia do pai, isto é, E, + E, + E, + 
E, < E, inclua os descendentes na árvore de análise. 
Se a energia combinada dos descendentes for maior 
ou igual à energia do pai, exclua os descendentes, 
mantendo apenas o pai, que é uma folha da árvore de 
análise otimizada. 


(a) Uma impressão digital escaneada e (b) sua decomposição completa em pacotes wavelet de três escalas. (Imagem original: 


Os 64 nós-folhas da Figura 7.35 correspondem ao arranjo 8 x 8 das 64 subimagens da Figura 7.36(b). Apesar das aparências, elas não são 


quadradas. A distorção (particularmente evidente na subimagem de aproximação) se deve ao programa utilizado para produzir o resultado. 
“ Outras medidas possíveis de energia incluem a soma dos quadrados de f(x, y), a soma do logaritmo dos quadrados etc. O Exercício 7.27 


define uma possível função custo baseada em entropia. 


O algoritmo anterior pode ser utilizado para (1) “aparar” 
árvores de pacotes wavelet ou (2) elaborar procedimentos 
para calcular árvores ótimas desde o início. No último caso, 
irmãos que não são essenciais — ou seja, descendentes de 
nós que seriam eliminados no passo 2 do algoritmo — não 
seriam calculados. A Figura 7.37 mostra a decomposição 
otimizada resultante da aplicação do algoritmo à imagem 
da Figura 7.36(a) com a função custo da Equação 7.6-8. A 
árvore de análise correspondente é apresentada na Figura 
7.38. Observe que muitas das 64 sub-bandas de decompo- 
sição do pacote completo original na Figura 7.36(b) (e as 
64 folhas correspondentes da árvore de análise da Figura 
7.35) foram eliminadas. Além disso, as subimagens que não 
são divididas (decompostas novamente) na Figura 7.37 são 
relativamente suaves e compostas de pixels de valor cinza 
médio. Como todas as subimagens dessa figura, menos a de 
aproximação, foram ajustadas para que o nível de cinza 128 
indicasse um coeficiente de valor zero, essas subimagens 
contêm pouca energia. Não haveria nenhuma redução de 
energia realizando sua divisão. 

E 


O exemplo anterior se baseia em um problema do 
mundo real que foi solucionado utilizando wavelets. O Fe- 
deral Bureau of Investigation (FBI) atualmente mantém um 
grande banco de dados de impressões digitais e criou um pa- 
drão nacional para a digitalização e compressão de imagens 
de impressões digitais baseado em wavelets [FBI (1993)]. 
Utilizando wavelets biortogonais, o padrão atinge uma taxa 
de compressão típica de 15:1. As vantagens da compressão 
baseada em wavelets sobre o padrão JPEG, mais tradicional, 
serão analisadas no próximo capítulo. 


Os filtros de decomposição utilizados no Exemplo 
7.15, bem como pelo FBI, fazem parte de uma conhecida 
família de wavelets chamada wavelets biortogonais de Co- 
hen-Daubechies-Feauveau [Cohen, Daubechies e Feauve- 

u (1992)]. Como as funções de escala e wavelet da família 
são simétricas e têm tamanhos similares, elas estão entre 
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Figura 7.37 Uma decomposição ótima de pacotes wavelet para a 
impressão digital da Figura 7.36(a). 


as wavelets biortogonais mais amplamente utilizadas. As fi- 
guras 7.39(e) a (h) mostram as funções duais de escala e 
wavelet. As figuras 7.39(a) a (d) são os filtros de decompo- 
sição e reconstrução correspondentes. Os coeficientes dos 
filtros de decomposição passa-baixa e passa-alta, h (n) e 
h (n) para 0 < n < 17 são mostrados na Tabela 7.4. Os co- 
eficientes correspondentes dos filtros de síntese biortogo- 
nais podem ser calculados utilizando g,(n) = (—1)"* 'h,(n) 
e g,(n) = (—1)"h,(n) para 0 < n < 17 da Equação 7.1-11. 
Isto é, eles são versões de modulação cruzada dos filtros 
de decomposição. Observe que o preenchimento com ze- 
ros (padding) é empregado para fazer com que os filtros 
tenham o mesmo tamanho, e a Tabela 7.4 e a Figura 7.39 
os definem em relação ao sistema de codificação e decodi- 
ficação em sub-bandas da Figura 7.6(a); no que se refere à 
FWT, hA- n) = h(n) eh,(—n)=h,(n). 
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Figura 7.38 Árvore de análise ótima de pacotes wavelet para decomposição da Figura 7.37. 
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Figura 7.39 Um membro da familia de wavelets biortogonais de Cohen-Daubechies-Feauveau: (a) e (b) coeficientes do filtro de decomposição; (c) e 
(d) coeficientes do filtro de reconstrução; (e) a (h) funções duais wavelete de escala. Consulte os valores de hn) e h(n) para0 < n< 17 na Tabela 7.3. 


Tabela 7.4 Coeficientes do filtro biortogonal de Cohen-Daubechies- 
Feauveau [Cohen, Daubechies e Feauveau (1992)]. 


n h{n) h(n) n h{n) h(n) 

0 0 9 0,8259 | 0,4178 
1 0,0019 0 0 0,4208 | 0,0404 
2 —0,0019 0 1 -0,0941 | -0,0787 
3 -0,017 | 0,0144 2 -0,0773 | -0,0145 
4 0,0119 | -0,0145 3 0,0497 | 0,0144 
5 0,0497 | -0,0787 4 0,0119 

6 —0,0773 | 0,0404 5 -0,017 

7 —0,0941 | 0,4178 6 -0,0019 

8 0,4208 | -0,7589 7 0,0010 


Resumo 


O conteúdo deste capítulo estabelece sólidas bases 
matemáticas para a compreensão do papel das wavelets e 
da análise multirresolução no processamento de imagens. 
As wavelets e as transformadas wavelets são ferramentas 
de imagens relativamente novas que estão sendo rapi- 
damente aplicadas a uma ampla variedade de problemas 
de processamento de imagens. Em virtude de sua seme- 
lhança com a transformada de Fourier, muitas das técnicas 
do Capítulo 4 têm equivalentes no domínio das wavelets. 
Uma lista parcial das aplicações de wavelets em imagens 


inclui casamento de imagens, registro, segmentação, re- 
dução de ruídos, restauração, realce, compressão, filtra- 
gem morfológica e tomografia computadorizada. Por ser 
impraticável cobrir todas essas aplicações em um único 
capítulo, os tópicos incluídos foram escolhidos com base 
em seu valor na apresentação ou esclarecimento dos con- 
ceitos fundamentais e na preparação do leitor para estudos 
posteriores na área. No Capítulo 8, aplicaremos as wave- 
lets à compressão de imagens. 


Referências e leituras complementares 


Há muitos bons textos sobre wavelets e sua aplica- 
ção. Vários deles complementam nossa abordagem, e 
foram consultados durante a elaboração das principais 
seções deste capítulo. O conteúdo da Seção 7.1.2 sobre 
codificação em sub-bandas e filtragem digital se baseia no 
livro de Vetterli e Kovacevic (1995), enquanto as seções 
7.2 e 7.4, sobre expansões multirresolução e a transfor- 
mada rápida de wavelet, seguem a abordagem de Burrus, 
Gopinath e Guo (1998). O restante do capítulo se baseia 
nas referências mencionadas no texto. Todos os exemplos 
do capítulo foram elaborados utilizando o Matlab [veja 
Gonzalez et al. (2004)]. 


A história da análise de wavelets foi registrada em 
um livro de Hubbard (1998). Os precursores das wave- 
lets foram desenvolvidos simultaneamente em diferen- 
tes áreas e reunidos em um artigo de Mallat (1987), que 
introduziu a estrutura conceitual matemática na área. 
Grande parte da história das wavelets pode ser estudada 
nas obras de Meyer (1987, 1990, 1992a, 1992b, 1993) 
Mallat (1987, 1989(a) a (c), 1998) e Daubechies (1988, 
1990, 1992, 1993, 1996). O atual interesse em wavelets foi 
encorajado por muitas publicações desses autores. O livro 
de Daubechies (1992) é uma fonte clássica de detalhes 
matemáticos da teoria das wavelets. 


A aplicação das wavelets ao processamento de ima- 
gens é coberta em textos gerais sobre processamento de 
imagens, como Castleman (1996) e muitos livros de aplica- 
ções específicas, dos quais alguns são anais de conferências. 
Nesta última categoria, por exemplo, temos Rosenfeld 
(1984), Prasad e Iyengar (1997) e Topiwala (1998). Arti- 
gos recentes que podem atuar como ponto de partida para 
pesquisas mais aprofundadas de aplicações específicas em 
imagens incluem Gao et al. (2007) sobre detecção de vér- 
tices; Olkkonen e Olkkonen (2007) sobre implementações 
em diagramas de árvores; Selesnick et al. (2005) e Kokare 
et al. (2005) sobre wavelets complexas; Thévenaz e Unser 
(2000) para o registro de imagens; Chang e Kuo (1993) e 
Unser (1995) sobre classificação baseada em texturas; Hei- 
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jmans e Goutsias (2000) sobre wavelets morfológicas; Ba- 
nham et al. (1994), Wang, Zhang e Pan (1995) e Banham 
e Kastaggelos (1996) sobre restauração de imagens; Xu et 
al. (1994) e Chang, Yu e Vetterli (2000) sobre realce de 
imagens; Delaney e Bresler (1995) e Westenberg e Roerdink 
(2000) sobre tomografia computadorizada; e Lee, Sun e 
Chen (1995), Liang e Kuo (1999), Wang, Lee e Toraichi 
(1999) e You e Bhattacharya (2000) sobre descrição e 
casamento de imagens. Uma das mais importantes apli- 
cações das wavelets é na compressão de imagens — veja, 
por exemplo, Brechet et al. (2007), Demin Wang et al. 
(2006), Antonini et al. (1992), Wei et al. (1998) e o livro 
de Topiwala (1998). Por fim, temos uma série de edições 
especiais dedicadas às wavelets, incluindo uma sobre trans- 
formadas wavelet e análise multirresolução de sinais na 
IEEE Transactions on Information Theory (1992), uma edição 
especial sobre processamento de sinais e wavelets na IEEE 
Transactions on Signal Processing (1993) e uma seção especial 
sobre representação em multirresolução na IEEE Transac- 
tions on Pattern Analysis and Machine Intelligence (1989). 


Embora o capítulo tenha se concentrado nos funda- 
mentos das wavelets e em sua aplicação no processamento de 
imagens, há considerável interesse na construção das wave- 
lets em si. Sugerimos que o leitor interessado consulte a obra 
de Battle (1987, 1988), Daubechies (1988, 1992), Cohen 
e Daubechies (1992), Meyer (1990), Mallat (1989b), Un- 
ser, Aldroubi e Eden (1993) e Grochenig e Madych (1992). 
Esta não é uma lista completa, mas deve servir como um 
ponto de partida para leituras adicionais. Veja também as 
referências gerais sobre codificação em sub-bandas e ban- 
cos de filtro, incluindo Strang e Nguyen (1996) e Vetterli e 
Kovacevic (1995), e as referências incluídas neste capítulo 
relativas às wavelets que utilizamos como exemplos. 


Exercícios 


7.1 Elabore um sistema para decodificar a pirâmide de re- 
sidual de previsão gerada pelo codificador da Figura 
7.2(b) e esboce seu diagrama de blocos. Considere que 
o codificador não introduz nenhum erro de quantização. 

*7.2 Construa uma pirâmide de aproximação completa e 
a pirâmide de residual de previsão correspondente 
para a imagem 


1 2 3 4 
5 6 7 8 

ey = 
Tee) 9 10 11 12 
13 14 15 16 


Utilize a média de vizinhança 2 x 2 para o filtro de 
aproximação da Figura 7.2(b) e considere que o filtro 
de interpolação implementa a replicação de pixels. 
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7.8 
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Dada uma imagem 2’ x 2º, pode uma pirâmide de ní- 
velJ + 1 reduzir ou expandir o volume de dados ne- 
cessários para representar a imagem? Qual é a taxa 
de compressão ou de expansão? 


O banco de filtros de codificação em duas sub-bandas 
contendo os filtros Ay(n) = [22 h(n) = 
{-1/v2,1/V2}, gn) =f11 42,1142} e g= 


fı fae df J2 } é ortonormal, biortogonal ou ambos? 


Dada a sequência f(n) = {0; 0,5; 0,25; 1}, na qual n = 
0, 1, 2, 3, calcule: 


(a) A sequéncia de sinal reverso. 

(b) A sequéncia de ordem reversa. 

(c) A sequência modulada. 

(d) A sequência modulada e depois de ordem reversa. 
(e) A sequência de ordem reversa e depois modulada. 
(f) O resultado de (d) ou (e) corresponde à Equação 7.1-9. 


Calcule os coeficientes dos filtros de síntese de Dau- 
bechies 9,(n) e 9,(n) para o Exemplo 7.2. Utilizando 
a Equação 7.1-13 com m = 0 apenas, mostre que os 
filtros são ortonormais. 


Esboce um decodificador de banco de filtros de quatro 
bandas bidimensional para reconstruir a entrada f(m, 
n) na Figura 7.7. 


Deduza a matriz de transformação de Haar para N = 8. 
(a) Calcule a transformada de Haar da imagem F 2 x 2 
3 —l 
F = 
6 2 


(b) A transformada inversa de Haar é F = H'TH, na 
qual T é a transformada de Haar de F e H'é a 
matriz inversa de H. Demonstre que H;' = H; 
e utilize isso para calcular a transformada inversa 
de Haar do resultado em (a). 


Calcule os coeficientes de expansão do par [3, 2]" 
para as bases a seguir e escreva as expansões corres- 


pondentes: 
*(a) Base Y = 12112] e a =[u 2,112] 
em Rº, o conjunto de pares reais. 

Base y, = [1,0]" e y, = [1,1]" e sua dual, 
Po = [= "e Pp, = [o,—1]" em R°. 

ben- ee Ase) fe fue 
= 1/ 28 / al: e suas duais, Ø, = 29,13, para i 
={0, 1, 2,} em R°. 


(Dica: Os produtos internos do vetor devem ser uti- 
lizados no lugar dos produtos internos integrais da 
Seção 7.2.1.) 


(b) 


(c) 


7.11 


7.12 


*7.13 


7.14 


7.15 


7.16 


*7.17 


Escala 


7.18 


Demonstre que a função de escala 


1 0,25<x<0,75 
P(x) = o 
O caso contrário 


não satisfaz o segundo requisito de uma análise mul- 
tirresolução. 


Escreva uma expressão para o espaço de escala V, como 
uma função da função de escala y(x). Utilize a defi- 
nição da função de escala de Haar da Equação 7.2-14 
para esboçar as funções de escala V, de Haar nas 
translações k = (0, 1, 2). 

Esboce a wavelet b, ,(x) para a função wavelet de Haar. 
Escreva uma expressão para 1), ,(x) em termos das 
funções de escala de Haar. 


Suponha que a função f(x) seja um membro do espa- 
ço de escala de Haar — isto é, que f(x)€ V, Utilize a 
Equação 7.2-22 para expressar V, como uma função do 
espaço de escala V, e quaisquer espaços wavelet neces- 
sarios. Se f(x) for igual a 0 fora do intervalo [0, 1], esbo- 
ce as funções de escala e wavelet necessárias para uma 
expansão linear de f(x) baseada na expressão que você 
deduziu. 


Calcule os quatro primeiros termos da expansão em 

séries wavelet da função utilizada no Exemplo 7.7 

com escala inicial j, = 1. Escreva a expansão resultan- 

te em termos das funções de escala e wavelet envolvi- 
das. Como seu resultado se compara com o exemplo, 

no qual a escala inicial era j, = 0? 

A DWT nas equações 7.3-4 e 7.3-5 é uma função da 

escala inicial j,. 

(a) Calcule novamente a DWT unidimensional da 
função f(n) = {1, 4, -3, 0} para 0 < n < 3 no 
Exemplo 7.8 com j, = 1 (em vez de 0). 

(b) Utilize o resultado de (a) para calcular f(1) a par- 
tir dos valores da transformada. 

O que a transformada wavelet contínua a seguir revela 

sobre a função unidimensional sobre a qual ela foi 

baseada? 


Tempo 


(a) A transformada wavelet contínua do Exercício 
7.17 foi gerada por computador. A função sobre 
a qual ela se baseia foi primeiro amostrada em 
intervalos discretos. O que é contínuo na trans- 
formada — ou o que a distingue da transformada 
wavelet discreta da função? 
*(b) Em quais circunstâncias a DWT representa uma 
escolha melhor do que a CWT? Existem circuns- 
tâncias nas quais a CWT é melhor que a DWT? 


*7.19 


7.20 


Esboce o banco de filtros da FWT necessário para cal- 
cular a transformada no Exercício 7.16. Identifique 
todas as entradas e saídas com as sequências apropria- 
das. 


A complexidade computacional de uma transforma- 
da rápida de wavelet de M pontos é (O)M. Isto é, o 
número de operações é proporcional a M. O que de- 
termina a constante de proporcionalidade? 


7.21 *(a) Se a entrada do banco de filtros da FWT de três 


*7.22 


7.23 


*7.24 


im 


escalas da Figura 7.30(a) for a função de escala de 
Haar y(n) = l paran=0,1,...,7e 0 em outros 
pontos, qual é a transformada resultante em rela- 
ção às wavelets de Haar? 


(b) Qual é a transformada se a entrada for a função 
wavelet de Haar correspondente y(n) = (1, 1, 1, 
1,—1,-—1,-1,-—1}paran=0,1,...,7? 

(c) Qual sequência de entradas produz a transforma- 
da (0, 0, 0, 0, 0, 0, B, 0} com coeficiente diferente 
de zero W, (2, 2) = B? 

A transformada rapida de wavelet bidimensional é 

similar ao esquema de codificação piramidal da Se- 

ção 7.2.1. Qual é a semelhança entre eles? Dada a 

transformada wavelet de três escalas da Figura 7.10(a), 

como você construiria a pirâmide de aproximação 

correspondente? Quantos níveis ela teria? 


Calcule a transformada wavelet bidimensional em re- 
lação as wavelets de Haar da imagem 2 x 2 do Exerci- 
cio 7.9. Esboce o banco de filtros necessários e iden- 
tifique todas as entradas e saídas com os arranjos 
adequados. 


No domínio de Fourier 


fix = da y = Yo) a F (u, vje — 27(pxglM + vyo!N) 


e a translação não afeta a exibição de IF (u, v)l. Utili- 
zando a sequência de imagens a seguir, explique a pro- 
priedade de translação das transformadas wavelet. A 
imagem mais à esquerda contém dois quadrados bran- 
cos 32 x 32 centralizados em um fundo cinza 128 x 
128. A segunda imagem (a partir da esquerda) é sua 
transformada wavelet de escala única considerando 
wavelets de Haar. A terceira é a transformada wavelet 
da imagem original após deslocá-la 32 pixels para a 
direita e para baixo e a imagem final (mais à direita) 
é a transformada wavelet da imagem original depois 
de ter sido deslocada um pixel para a direita e para 
baixo. 


7.25 


7.26 


7.27 


Processamento com wavelets e multirresolução 347 


A tabela a seguir mostra as funções wavelet e de es- 
cala de Haar para uma transformada rápida de wa- 
velet de quatro escalas. Esboce as funções de base 
adicionais necessárias para uma decomposição com- 
pleta em pacotes de três escalas. Qual(is) é(são) a(s) 
expressão(ões) matemática(s) para determiná-las? 
Em seguida, ordene as funções de base de acordo com 
o conteúdo de frequência e explique os resultados. 


NO TL SLi 
M = o W o 
Ses || a z! r liw, 
Ep (E —— uma] 
I a Woa Wo, ap 
— M — asa 
a 7 |; Wap LA 


Uma decomposição de pacotes wavelet do vaso da Fi- 

gura 7.1 é mostrada a seguir. 

(a) Esboce a árvore de análise de decomposição cor- 
respondente, identificando todos os nós com os 
nomes dos espaços de escala e wavelet adequados. 


(b) Esboce e identifique o espectro de frequência da 
decomposição. 


Utilizando a wavelet de Haar, determine a decomposi- 
ção do pacote de entropia mínima para a função f(n) 
= 0,25 com n = 0, 1, 2, ... , 15. Empregue a entropia 
não normalizada de Shannon, 


E[fin]= E Finalen) 


como critério de minimização. Esboce a árvore óti- 
ma, nomeando os nós com os valores de entropia 
calculados. 
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Mas a vida é curta e a informação, infinita... A abreviação é um mal 
necessário e o papel do abreviador é fazer o melhor trabalho que, 
apesar de intrinsecamente ruim, ainda seja melhor do que nada. 
Aldous Huxley 


Capítulo 


Apresentação 


A compressão de imagens, a arte e a ciência de reduzir o volume de dados necessários para representar 
uma imagem, é uma das tecnologias mais úteis e comercialmente bem-sucedidas na área do processamento 
digital de imagens. O número de imagens comprimidas e descomprimidas diariamente é impressionante e 
o processo de compressão e descompressão é praticamente invisível ao usuário. Qualquer pessoa que tenha 
uma câmera digital, que navegue pela Internet ou que assista aos mais recentes filmes de Hollywood em 
Digital Video Disks (DVDs) se beneficia dos algoritmos e padrões que analisamos neste capítulo. 


Para entender melhor a necessidade de compactar representações de imagens, pense no volume de dados 
necessários para armazenar um vídeo digital de duas horas no padrão SD (standard definition) com resolução 
de 720 x 480 x 24 bits. Um filme digital (ou vídeo) é uma sequência de quadros de vídeo na qual cada quadro 
é uma imagem estática colorida. Como os reprodutores de vídeo devem exibir os quadros em sequência 
em velocidades de aproximadamente 30 fps (quadros por segundo, de frames per second), os dados de vídeos 
digitais SD devem ser acessados em 


frames x (720 x 480) pixels z3 bytes 


s frames pixels 


30 = 31.104.000 bytes/s 


e um filme de duas horas consiste em 


31,104,000 288 (607) E x 2h = 2,24 x10" bytes 
ou 224 GB (gigabytes) de dados. Vinte e sete DVDs de camada dupla de 8,5 GB (considerando discos con- 
vencionais de 12 cm) seriam necessários para armazená-lo. Para que um filme de duas horas caiba em um 
único DVD, cada quadro deve ser comprimido — em média — por um fator de 26,3. A compressão deve ser 
ainda maior no caso de vídeos para televisores de alta definição (HD, de high definition), nos quais as resoluções 
da imagem chegam a 1.920 x 1.080 x 24 bits/imagem. 


Imagens de páginas da Internet e fotos de câmeras digitais de alta resolução também são rotineiramente 
comprimidas para reduzir o espaço de armazenamento e o tempo de transmissão. Por exemplo, conexões 
residenciais de Internet transmitem dados em velocidades que variam de 56 Kbps (kilobits por segundo) via 
linhas telefônicas convencionais a mais de 12 Mbps (megabits por segundo), no caso de banda larga. O tempo 
necessário para transmitir uma pequena imagem colorida de 128 x 128 x 24 bits nessa faixa de velocidades é 
de 7,0 a 0,03 segundos. A compressão pode reduzir o tempo de transmissão em um fator de 2 a 10 ou mais. 
Da mesma forma, o número de imagens coloridas não comprimidas que uma câmera digital de 8 megapixels 
é capaz de armazenar em um cartão de memória flash de 1 GB [cerca de 41 imagens de 24 MB (megabytes)] 
pode ser aumentado de modo similar. Além dessas aplicações, a compressão de imagens exerce um impor- 
tante papel em muitas outras áreas, incluindo teleconferência, sensoriamento remoto, imagens médicas e de 
documentos e transmissão de fac-símiles (fax). Um número cada vez maior de aplicações depende da mani- 
pulação, do armazenamento e da transmissão eficientes de imagens coloridas, binárias e em escalas de cinza. 
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Neste capítulo, apresentamos a teoria e a prática da compressão digital de imagens. Analisaremos as técnicas 
de compressão mais utilizadas e descreveremos os padrões da indústria que fazem que elas sejam úteis. O 
conteúdo deste capítulo é introdutório e se aplica tanto a imagens estáticas quanto a aplicações em vídeo. 
Concluímos o capítulo com uma introdução a marcas d'água em imagens digitais, o processo de inserir dados 
visíveis e invisíveis (como informações de direitos autorais) nas imagens. 


8.1 Fundamentos 


O termo compressão de dados refere-se ao processo de 
reduzir o volume de dados necessários para representar 
dada quantidade de informações. Nessa definição, dados 
são diferentes de informações; dados são os meios pelos 
quais as informações são transmitidas. Como várias quan- 
tidades de dados podem ser utilizadas para representar a 
mesma quantidade de informações, dizemos que repre- 
sentações que contêm informações irrelevantes ou repe- 
tidas possuem dados redundantes. Com b e b’ indicando o 
número de bits (ou unidades de transmissão de informa- 
ções) em duas representações das mesmas informações, a 
redundância relativa de dados, R, da representação com b bits, é 


pies 
C 


(8.1-1) 
em que C, que costuma ser chamada de taxa de compressão, 
é definida como 


Se C = 10 (algumas vezes, expresso como 10:1), por 
exemplo, a maior representação tem 10 bits de dados 
para cada 1 bit de dados na representação menor. A re- 
dundância relativa de dados correspondentes da repre- 
sentação maior é 0,9 (R = 0,9), indicando que 90% de 
seus dados são redundantes. 


(8.1-2) 


No contexto da compressão digital de imagens, b na 
Equação 8.1-2 normalmente indica o número de bits ne- 
cessários para representar uma imagem como um arranjo 
matricial 2-D de valores de intensidade. Os arranjos de 
intensidade 2-D apresentados na Seção 2.4.2 são os for- 
matos preferidos para a visão e interpretação humanas — 
e o padrão pelo qual todas as outras representações são 
avaliadas. Em se tratando da representação de imagens 
compactas, contudo, esses formatos estão longe de serem 
ótimos. Arranjos de intensidade bidimensionais são pre- 
judicados por três principais tipos de redundância de da- 
dos que podem ser identificados e explorados: 


1. Redundância de codificação. Um código é um sistema 
de símbolos (letras, números, bits e assim por diante) 
utilizados para representar um corpo de informações 


ou conjunto de eventos. Atribui-se a cada parcela 
da informação ou evento uma sequência de símbolos 
de código, denominados palavra de código ou palavra- 
código (code word). O número de símbolos em cada 
palavra-código é seu comprimento ou tamanho. Os 
códigos de 8 bits utilizados para representar as in- 
tensidades na maioria dos arranjos de intensidade 
2-D contêm mais bits do que o necessário para re- 
presentar as intensidades. 


2. Redundância espacial e temporal. Como os pixels da 
maioria dos arranjos de intensidade 2-D são cor- 
relacionados no espaço (isto é, cada pixel é similar 
aos pixels vizinhos ou dependente deles), as infor- 
mações são desnecessariamente replicadas nas re- 
presentações dos pixels correlacionados. Em uma 
sequência de vídeo, pixels temporariamente correla- 
cionados (isto é, pixels similares aos pixels de quadros 
próximos ou dependentes deles) também duplicam 
as informações. 


3. Informações irrelevantes. A maioria dos arranjos de in- 
tensidade 2-D contém informações ignoradas pelo 
sistema visual humano e/ou irrelevantes para a uti- 
lização pretendida da imagem. As informações são 
redundantes no sentido de não serem utilizadas. 


As imagens geradas por computador das figuras 
8.1(a) a (c) mostram cada uma dessas redundâncias básicas. 
Como veremos nas próximas três seções, a compressão é 
realizada quando uma ou mais redundancias são reduzi- 
das ou eliminadas. 


8.1.1 Redundância de codificação 


No Capítulo 3, analisamos técnicas para realce de 
imagens utilizando técnicas de processamento de histo- 
gramas, presumindo que os valores de intensidade de 
uma imagem sejam valores aleatórios. Nesta seção, uti- 
lizamos fórmulas similares para apresentar a codificação 
ótima de informações. 


Presuma que uma variável aleatória discreta r, no 
intervalo [0, L — 1] seja utilizada para representar as in- 
tensidades de uma imagem M x N e que a probabilidade 
de ocorrência de cada r, seja p (r,). Como na Seção 3.3, 
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Figura 8.1 


Imagens de 256 x 256 x 8 bits geradas por computador com (a) redundância de codificação, (b) redundância espacial e (c) infor- 


mações irrelevantes. (Cada uma foi projetada para demonstrar uma redundância principal, mas também pode apresentar outras redundâncias.) 


p(t.) = a k=0,1,2,...,L—1 (8.1-3) 
em que L é o número de valores de intensidade (níveis de 
cinza) e n, é o número de vezes em que a k-ésima intensi- 
dade aparece na imagem. Se o número de bits utilizados 
para representar cada valor de r, for /(r,), o número mé- 
dio de bits necessários para representar cada pixel é 


(8.1-4) 


Isto é, o tamanho médio das palavras-código 
atribuídas aos vários valores de intensidade é calculado 
somando-se os produtos do número de bits utilizados 
para representar cada intensidade e a probabilidade de 
ocorrência da intensidade. O número total de bits ne- 
cessários para representar uma imagem M x N é MNE as: 
Se as intensidades forem representadas utilizando-se um 
código natural de tamanho fixo de m bits”, o lado direito da 
Equação 8.1-4 se reduz a m bits. Isto é, Le = m quando 
l(r,) é substituído por m. A constante pode ser retirada 
do somatório, deixando apenas a soma das probabilida- 
des p (r,) para 0 < k < L- 1, o que, é claro, equivale a 1. 


Exemplo 8.1 Uma ilustração simples da codificação de 


tamanho variável. 


A imagem gerada por computador da Figura 8.1(a) 
tem sua distribuição de intensidade apresentada na segun- 
da coluna da Tabela 8.1. Se um código binário natural de 
8 bits (indicado como código 1 na Tabela 8.1) for utilizado 
para representar suas quatro intensidades possíveis, L, ,,- 0 
número médio de bits para o código 1 — equivale a 8 bits, 
porque / (r,) = 8 bits para todos os r, 


— 


* Um código binário natural é um código no qual um dos 2” códigos de 
uma sequência binária de m bits é atribuído a cada evento ou parcela 
da informação a ser codificada (como o valor de intensidade). 


Por outro lado, se o esquema chamado código 2 na 
Tabela 8.1 for utilizado, o tamanho médio dos pixels codifi- 
cados será, de acordo com a Equação 8.1-4, 


L «a= 0,25(2) + 0,47(1) + 0,25(3) + 0,03(3) = 1,81 bits 


O número total de bits necessários para representar a 
imagem inteira é MNL = 256 x 256 x 1,81 ou 118.621. A 
partir das equações 8.1-2 e 8.1-1, a compressão resultante e 
redundância relativa correspondente são 


_ 256x256x8 8 
118.621 1,81 


mx 4,42 


p=i--L=077a 
4,42 


, 


respectivamente. Dessa forma, 77,4% dos dados no arran- 
jo de intensidade 2-D original de 8 bits sao redundantes. 


A compressão obtida pelo código 2 resulta da atri- 
buição de menos bits aos valores de intensidade mais pro- 
váveis do que aos menos prováveis. No código de tamanho 
variável resultante, r,,, — a intensidade mais provável da 
imagem — recebe a palavra-código 1 de 1 bit [de tamanho 
L(r,s) = 1], ao passo que r,,, — intensidade de ocorrência 
menos provável — recebe a palavra-código 001 de 3 bits 
[de tamanho 1,(r,,) = 3]. Observe que o melhor código de 


— 


Tabela 8.1 Exemplo de codificação de tamanho variável. 
A plr) | Código 1 | Ir) | Código2 | Ir) 
fy, = 87 0,25 | 01010111 | 8 01 
Fog = 128 0,47 | 10000000 | 8 1 1 
lg 186 0,25 | 11000100 | 8 | 000 3 
[eg = 200 0,03 | 11111111) 8 | 001 3 
r, para k #87, 128, 186, 255| 0 - 8 = 0 


tamanho fixo que pode ser atribuído às intensidades da ima- 
gem da Figura. 8.1 (a) é a sequência de contagem natural 
de 2 bits (00, 01, 10, 11), mas a compressão resultante é de 
apenas 8/2 ou 4:1 — cerca de 10% menos que a compres- 
são 4,42:1 do código de tamanho variável. 

E 


Como mostra o exemplo anterior, a redundância de 
codificação se faz presente quando os códigos atribuídos 
a um conjunto de eventos (como valores de intensida- 
de) não se beneficiam totalmente das probabilidades dos 
eventos. A redundância de codificação está quase sempre 
presente quando as intensidades de uma imagem são re- 
presentadas utilizando um código binário natural. A ra- 
zão é que a maioria das imagens é composta por objetos 
que apresentam morfologia (forma) e refletância regula- 
res e muitas vezes previsíveis e são amostradas de modo 
que os objetos representados sejam muito maiores que 
os elementos de imagem. A consequência natural é que, 
para a maioria das imagens, certas intensidades são mais 
prováveis que outras (isto é, os histogramas da maioria 
das imagens não são uniformes). Uma codificação binária 
natural atribui o mesmo número de bits, tanto ao valor 
mais provável quanto ao menos provável, deixando de 
minimizar a Equação 8.1-4 e resultando em redundância 
de codificação. 


8.1.2 Redundância espacial e temporal 


Veja a coletânea gerada por computador de linhas 
de intensidade constante da Figura 8.1(b). No arranjo de 
intensidade 2-D correspondente: 


1. Todas as 256 intensidades são igualmente prová- 
veis. Como mostra a Figura 8.2, os histogramas da 
imagem são uniformes. 


2. Como a intensidade de cada linha foi selecionada 
aleatoriamente, seus pixels independem uns dos 
outros na direção vertical. 


3. Como os pixels ao longo de cada linha são idên- 
ticos, eles apresentam correlação máxima (são 
completamente dependentes uns dos outros) na 
direção horizontal. 


ny P-o) 
256 : 
256 
0 0 
0 50 100 150 200 250 
k 


Figura8.2 0 histograma de intensidades da imagem da Figura 8.1(b). 
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A primeira observação nos informa que a imagem 
da Figura 8.1(b) — quando representada como um ar- 
ranjo de intensidades convencional de 8 bits — não pode 
ser comprimida apenas pela codificação de tamanho va- 
riável. Diferentemente da imagem da Figura 8.1(a) (e 
do Exemplo 8.1), cujo histograma não era uniforme, um 
código de 8 bits de tamanho fixo nesse caso minimiza a 
Equação 8.1-4. As observações 2 e 3 revelam uma signi- 
ficativa redundância espacial que pode ser eliminada, por 
exemplo, pela representação da imagem da Figura 8.1(b) 
como uma sequência de pares run-length, no qual cada 
par run-length especifica o início de uma nova intensidade 
e o número de pixels consecutivos que apresentam essa 
intensidade. Uma representação baseada em run-length 
comprime o arranjo de intensidade 2-D de 8 bits original 
em (256 x 256 x 8)/[(256 + 256) x 8] ou 128:1. Cada li- 
nha de 256 pixels da representação original é substituída 
por um único valor de intensidade de 8 bits e tamanho 
256 na representação run-length. 


Na maioria das imagens, os pixels são correlacio- 
nados no espaço (tanto em x quanto em y) e no tempo 
(quando a imagem faz parte de uma sequência de vídeo). 
Como a maioria das intensidades de pixel pode ser razoa- 
velmente prevista a partir das intensidades vizinhas, a 
informação transmitida por um único pixel é pequena. 
Grande parte de sua contribuição visual é redundante no 
sentido de poder ser inferida a partir de seus vizinhos. 
Para reduzir a redundância associada aos pixels correla- 
cionados no espaço e no tempo, um arranjo de intensi- 
dade 2-D deve ser transformado em uma representação 
mais eficiente, porém normalmente “não visual”. Por 
exemplo, podem ser utilizados run-lengths ou as diferen- 
ças entre pixels adjacentes. Transformações desse tipo são 
chamadas mapeamentos. Diz-se que um mapeamento é re- 
versível se os pixels do arranjo de intensidade 2-D original 
puderem ser reconstruídos sem erro a partir do conjunto 
de dados transformados; em outras palavras, dizemos que 
o mapeamento é irreversível. 


8.1.3 Informações irrelevantes 


Uma das formas mais simples de comprimir um con- 
junto de dados é remover dados supérfluos do conjunto. 
No contexto da compressão digital de imagens digitais, 
as informações ignoradas pelo sistema visual humano e/ou 
irrelevantes para a utilização pretendida da imagem são 
candidatas óbvias para a omissão. Dessa forma, a ima- 
gem gerada por computador da Figura 8.1(c), por apa- 
rentar ser uma região cinza bastante homogênea, pode 
ser representada somente por sua intensidade média — 
um único valor de 8 bits. O arranjo de intensidade original 
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de 256 x 256 x 8 bits é reduzido a um único byte e a 
compressão resultante é de (256 x 256 x 8)/8 ou 65.536:1. 
Naturalmente, a imagem original de 256 x 256 x 8 bits deve 
ser recriada para ser visualizada e/ou analisada — mas a 
qualidade da imagem reconstruída é muito próxima ou 
completamente igual à imagem original. 


A Figura 8.3 (a) mostra o histograma de intensidades 
da imagem da Figura 8.1(c). Observe que há vários valo- 
res de intensidade (intensidades de 125 a 131) presen- 
tes. O sistema visual humano calcula uma média dessas 
intensidades, percebe apenas o valor médio e ignora as 
pequenas variações de intensidade presentes nesse caso. 
A Figura 8.3(b), uma versão equalizada do histograma da 
imagem da Figura 8.1 (c), faz que as variações de intensi- 
dade sejam visíveis e revela duas regiões antes não detec- 
tadas de intensidade constante — uma orientada vertical- 
mente e a outra, horizontalmente. Se a imagem da Figura 
8.1(c) for representada somente por seu valor médio, 
essa estrutura “invisível” (isto é, as regiões de intensidade 
constante) e as variações de intensidade aleatórias que as 
cercam — informações reais — são perdidas. A decisão 
de preservar ou não essas informações depende muito da 
aplicação desejada. Se as informações forem importantes, 
como pode ser o caso de uma aplicação médica (como um 
arquivo digital de raios X), elas não devem ser omitidas; 
caso contrário, as informações são redundantes e podem 
ser excluídas para melhorar o desempenho da compressão. 


Concluímos a seção observando que a redundância 
analisada aqui é basicamente diferente das redundâncias 
discutidas nas seções 8.1.1 e 8.1.2. Sua eliminação é pos- 
sível, pois as informações não são essenciais para o pro- 
cessamento visual normal e/ou a utilização pretendida da 
imagem. Como sua omissão resulta em uma perda quan- 
titativa de informações, sua remoção costuma ser cha- 
mada quantização. Essa terminologia está de acordo com 
a utilização cotidiana da palavra, que geralmente significa o 
mapeamento de ampla variedade de valores de entrada 
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Figura 8.3 (a) Histograma da imagem da Figura 8.1(c); e (b) uma 
versão equalizada do histograma da imagem. 


a um número limitado de valores de saída (veja a Seção 
2.4). Pelo fato de as informações serem perdidas, a quan- 
tização é uma operação irreversível. 


8.1.4 Medindo as informações da imagem 


Nas seções anteriores, apresentamos várias formas 
de reduzir o volume de dados utilizados para represen- 
tar uma imagem. A questão que naturalmente surge é: 
quantos bits são realmente necessários para representar 
as informações de uma imagem? Isto é, existe um volume 
mínimo de dados suficientes para descrever uma imagem 
sem que haja a perda de informação? A teoria da infor- 
mação nos proporciona a estrutura conceitual matemática 
para responder a essa e a outras perguntas relacionadas.” 
Sua premissa básica é que a geração de informações pode 
ser modelada como um processo probabilístico que pode ser 
medido de maneira intuitiva. De acordo com essa suposi- 
ção, dizemos que um evento aleatório E que ocorra com 
probabilidade P(E) contém 


1 
I(E) = log PE) = —log P(E) 
unidades de informação. Se P(E) = 1 (isto é, o evento 
sempre ocorre), I(E) = 0, nenhuma informação é atribuí- 
da a ele. Como nenhuma incerteza é associada ao evento, 
nenhuma informação seria transferida pela comunicação 
de que o evento ocorreu [ele sempre ocorre se P(E) = 1]. 


(8.1-5) 


A base do logaritmo da Equação 8.1-5 define a 
unidade utilizada para medir as informações. Se um 
logaritmo de base m for utilizado, dizemos que a me- 
dida é em unidades m-árias. Se a base 2 for selecionada, 
a unidade de informação é um bit. Observe que, se 
P(E)= 4, I(E) = —log, 5, ou 1 bit. Isto é, 1 bit é a quan- 
tidade de informações transmitidas quando um dos 
dois eventos possíveis igualmente prováveis ocorre. Um 
exemplo simples de tal situação é tirar cara e coroa e co- 
municar o resultado. 


Dada uma fonte de eventos aleatórios estatistica- 
mente independentes do conjunto discreto de eventos 
possíveis (a, a, ..., a) com probabilidades associadas 
{P(a,), P(a,), ..., P(a,)}, a informação média por saída de 
fonte, denominada entropia da fonte, é 

4 
H=-X P(a,)log P(a,) (8.1-6) 

Os a, dessa equação são chamados símbolos fonte. Por 
ser estatisticamente independente, a fonte em si é conhe- 
cida como fonte de memória zero. 


Consulte o site do livro para uma breve revisão sobre a teoria da 
probabilidade e a teoria da informação. 


Se uma imagem for considerada a saída de uma 
“fonte de intensidade” imaginária de memória zero, po- 
demos utilizar o histograma da imagem observada para 
estimar as probabilidades do símbolo da fonte. Nesse 
caso, a entropia da fonte de intensidade passa a ser” 

z L-1 

H=- X P (r,)log, P(r.) (8.1-7) 
na qual as variáveis L, r, e p (r,) são as mesmas definidas 
nas seções 8.1.1 e 3.3. Como o logaritmo de base 2 é utili- 
zado, a Equação 8.1-7 é a informação média por saída de 
intensidade da fonte de intensidade imaginária em bits. 
Não é possível codificar os valores de intensidade da fonte 
imaginária (e, portanto, a imagem de amostra) com me- 
nos que Hbits/pixel. 


| 
Exemplo 8.2 Estimativas de entropia de imagem. 


A entropia da imagem da Figura 8.1a pode ser estima- 
da substituindo as probabilidades de intensidade da Tabela 8.1 
na Equação 8.1-7: 
H = —[0,25 log, 0,25+ 0,47 log, 0,47 + 0,25 log, 0,25 
+0,03 log, 0,03 
zx —[0,25(—2) + 0,47(— 1,09) + 0,25(—2) + 0,03(—5,06)] 
= 1,6614 bits/pixel 


De forma similar, é possível demonstrar que as entro- 
pias das imagens das figuras 8.1(b) e (c) são de 8 bits/pixel e 
1.566 bits/pixel, respectivamente. Observe que a imagem da 
Figura 8.1 (a) parece ter mais informações visuais, mas quase 
tem a entropia calculada mais baixa — 1,66 bits/pixel. A ima- 
gem da Figura 8.1 (b) apresenta quase cinco vezes a entropia da 
imagem em (a), mas parece ter aproximadamente as mesmas 
informações visuais (ou menos); e a imagem da Figura 8.1 (c), 
que parece ter pouca ou nenhuma informação, apresenta qua- 
se a mesma entropia que a imagem em (a). A conclusão na- 
tural é que a quantidade da entropia da informação em uma 
imagem não pode ser determinada intuitivamente. 
= 


Primeiro teorema de Shannon 


Lembre-se de que o código de tamanho variável do 
Exemplo 8.1 era capaz de representar as intensidades da 
imagem da Figura 8.1(a) utilizando apenas 1,81 bits/pi- 
xel. Apesar de esse valor ser mais elevado que a estima- 
tiva de entropia de 1,6614 bits/pixel do Exemplo 8.2, o 
primeiro teorema de Shannon — também chamado teorema 


* A Equação 8.1-6 é aplicada em fontes de memória zero com J 
símbolos fonte; a Equação 8.1-7 utiliza estimativas de probabili- 
dade para os valores de intensidade L — 1 em uma imagem. 
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de codificação sem ruído [Shannon (1948)] — nos assegu- 
ra que a imagem da Figura 8.1 (a) pode ser representada 
com apenas 1,6614 bits/pixel. Para comprovar essa afir- 
mação de forma geral, Shannon analisou grupos repre- 
sentativos de n consecutivos símbolos fontes com uma 
única palavra-código (em vez de uma palavra-código por 
símbolo fonte) e demonstrou que 


méd ” n 


n 


lim 


n= 


=H (8.1-8) 


sendo Lean © numero médio de símbolos de código ne- 
cessários para representar todos os grupos de n símbolos. 
Na comprovação, ele definiu a n-ésima extensão de uma 
fonte de memória zero como a fonte hipotética que pro- 
duz blocos de n símbolos” utilizando os símbolos da fonte 
original; e calculou L,,,,,, por meio da aplicação da Equa- 
ção 8.1-4 às palavras-código utilizadas para representar 
os blocos de n símbolos. Com base na Equação 8.1-8, sa- 
bemos que L .,,/n pode se aproximar arbitrariamente de H 
codificando extensões infinitamente longas da fonte de 
símbolo único. Isto é, é possível representar a saída de uma 
fonte de memória zero com uma média de H unidades de 
informação por símbolo fonte. 


Retomando agora a ideia de que uma imagem é 
uma “amostra” da fonte de intensidade que a produziu, 
vemos que um bloco de n símbolos fonte corresponde a 
um grupo de n pixels adjacentes. Para construir um có- 
digo de tamanho variável para blocos de n pixels, as fre- 
quências relativas dos blocos devem ser calculadas. Mas 
a n-ésima extensão de uma fonte de intensidade hipoté- 
tica com 256 valores de intensidade tem 256" blocos de 
n pixels possíveis. Mesmo no caso simples de n = 2, um 
histograma de 65.536 elementos e até 65.536 palavras- 
-código de tamanho variável deve ser gerado. Para n = 3, 
até 16.777.216 palavras-código são necessárias. Dessa 
forma, até para pequenos valores de n, a complexidade 
computacional na prática restringe a utilidade da técnica 
de codificação de extensões. 


Por fim, observamos que, apesar de a Equação 8.1-7 
proporcionar um limite para a compressão que pode ser 
atingido ao codificar diretamente pixels estatisticamen- 
te independentes, ela é decomposta quando os pixels de 
uma imagem são correlacionados. Blocos de pixels cor- 
relacionados podem ser codificados com uma média 


“ A saída da n-ésima extensão é um grupo de n símbolos da fonte 
básica de símbolo único. Ela foi considerada uma variável aleatória 
de bloco na qual a probabilidade de cada grupo de n símbolos é 
o produto das probabilidades de seus símbolos individuais. A en- 
tropia da n-ésima extensão é, dessa forma, n vezes a entropia da 
fonte de símbolo único a partir da qual ela foi deduzida. 
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menor de bits por pixel do que prevê a equação. Em vez 
de utilizar extensão de fonte, descritores menos corre- 
lacionados (como run-lengths de intensidade) costumam 
ser selecionados e codificados sem extensão. Este foi o 
método utilizado para comprimir a Figura 8.1(b) na Se- 
ção 8.1.2. Quando a saída de uma fonte de informações 
depende de um número finito de saídas precedentes, a 
fonte é chamada fonte de Markov ou fonte de memória finita. 


8.1.5 Critérios de fidelidade 


Na Seção 8.1.3, observamos que a remoção de infor- 
mações “visuais irrelevantes” envolve perda de informações 
reais ou quantitativas da imagem. Em virtude da perda 
de informações, precisamos de um meio de quantificar 
a natureza da perda. Dois critérios podem ser utilizados 
para essa avaliação: (1) critérios de fidelidade objetivos; e 
(2) critérios de fidelidade subjetivos. 


Quando a perda de informações pode ser expressa 
como uma função matemática de entrada e de saída de 
um processo de compressão, dizemos que ela se baseia 
em um critério de fidelidade objetivo. Um exemplo é o erro de 
raiz média quadrática (rms, de root-mean-square) entre duas 
imagens. Temos que f(x, y) é uma imagem de entrada e 
f(x,y) é uma aproximação de f(x, y) resultante da com- 
pressão e subsequente descompressão da entrada. Para 
qualquer valor de x e y, o erro e(x, y) entre f(x, y) e fix, y)é 


A 


e(x, y) = Hx,7)— f(x,y) (8.1-9) 


de forma que o erro total entre as duas imagens é 


= 


IN, À 
Z Elite fon 

em que as imagens são de tamanho M x N. O erro de raiz 
média quadrática, e entre f(x, y) e f(x, y) é, dessa forma, 
a raiz quadrada da média do erro ao quadrado, calculado 
ao longo do arranjo M x N, ou 


1 M-1N-1 


1/2 
E Elfo res (8.1-10) 


e = 


rms 


Se fix, y) for considerado (por meio de um simples 
rearranjo dos termos na Equação 8.1-9) como a soma da 
imagemoriginal f(x, y) ede um erro ousinalde “ruído” e(x, y), 
a média quadrática da relação sinal-ruído da imagem de saída, 
expressa por SNR „ pode ser definida como na Seção 5.8: 


O valor do rms da relação sinal-ruído, expresso 
por SNR, é obtido calculando a raiz quadrada da 
Equação 8.1-11. 

Apesar de os critérios de fidelidade objetivos ofere- 
cerem uma maneira simples e prática de avaliar a perda de 
informações, as imagens descomprimidas são, em última 
instância, vistas por seres humanos. Dessa forma, me- 
dir a qualidade da imagem pelas avaliações subjetivas das 
pessoas costuma ser mais apropriado. Isso pode ser feito 
apresentando uma imagem descomprimida a um grupo 
de pessoas e calculando a média de suas avaliações. As 
avaliações podem ser feitas utilizando-se uma escala de 
classificação absoluta ou em termos de comparações lado 
a lado entre f(x, y) e flx,y) . A Tabela 8.2 mostra uma esca- 
la de classificação absoluta possível. Comparações podem 
ser realizadas com uma escala como {-3, -2, -1, 0, 1, 2, 3} 
para representar as avaliações subjetivas muito pior, pior, 
ligeiramente pior, igual, ligeiramente melhor, melhor e muito 
melhor, respectivamente. Em qualquer um dos casos, as 
avaliações se baseiam em critérios de fidelidade subjetivos. 


= 
Exemplo 8.3 Comparações de qualidade de imagens. 


A Figura 8.4 mostra as três diferentes aproximações da 
imagem da Figura 8.1(a). Utilizando a Equação 8.1-10 com 
a Figura 8.1 (a) para f(x, y) e as imagens das figuras 8.4(a) a 
(c) como f(x,y), os erros rms calculados são 5,17; 15,67 e 
14,17 níveis de intensidade, respectivamente. Em termos de 
erro rms — um critério de fidelidade objetivo — as três ima- 
gens da Figura 8.4 são classificadas em ordem decrescente 
de qualidade como {(a), (c), (b)). 

As figuras 8.4(a) e (b) são típicas de imagens que foram 
comprimidas e subsequentemente reconstruídas. Ambas re- 
têm as informações essenciais da imagem original — como 


Tabela 8.2 Escala de classificação da Television Allocations Stu- 
dy Organization. (Frendendall e Behrend.) 


Valor | Classificação Descrição 

Uma imagem de qualidade extremamente alta, 

o melhor que se pode desejar. 

Uma imagem de alta qualidade, proporcio- 

2 Boa nando uma experiência visual agradável. A 

interferência não chega a incomodar. 

Uma imagem de qualidade aceitável. A inter- 

ferência não chega a incomodar. 

Uma imagem de baixa qualidade; você 

gostaria que ela fosse melhor. A interferência 

incomoda um pouco. 

Uma imagem muito ruim, mas é possível assistir. 
A interferência definitivamente incomoda. 


6 Inutilizavel Uma imagem tão ruim que você não assistiria. 


1 Excelente 


3 Razoável 


4 No limite 


5 Inferior 


Figura 8.4 Três aproximações da imagem da Figura 8.1(a). 


as características espacial e de intensidade de seus objetos. E 
seus erros rms correspondem aproximadamente à qualidade 
percebida. A Figura 8.4(a), que é praticamente tão boa quan- 
to a imagem original, apresenta o menor erro rms, ao passo 
que a Figura 8.4(b) apresenta um erro maior mas uma degra- 
dação visível das fronteiras entre os objetos. Essa situação é 
exatamente a esperada. 


A Figura 8.4(c) é uma imagem artificialmente gera- 
da que demonstra as limitações de critérios de fidelidade 
objetivos. Observe que estão faltando na imagem grandes 
partes de várias linhas importantes (isto é, informações visu- 
ais) e que ela apresenta pequenos quadrados escuros (isto é, 
anomalias) no quadrante superior direito. O conteúdo visual 
da imagem é enganoso e certamente não tão preciso quanto a 
imagem mostrada em (b), mas apresenta menos erro rms — 
14,17 versus 15,67 valores de intensidade. Uma avaliação 
subjetiva das três imagens utilizando a Tabela 8.2 pode ge- 
rar uma classificação excelente para (a), ou uma classificação 
razoável ou no limite para (b) e uma classificação inferior ou 
inutilizável para (c). A medida de erro rms, por outro lado, 
classifica (c) acima de (b). 

= 


8.1.6 Modelos de compressão de imagens 


Como mostra a Figura 8.5, um sistema de compres- 
sao de imagens é composto por dois componentes funcio- 
nais distintos: um codificador e um decodificador. O codifi- 


l l 
x,y) i 
K da L| Mapeador }+| Quantizador f+ Codificador 
| de símbolos| | | Dados comprimidos 
Fo) + Codificador para armazenamento 
J4 e/ou transmissão 
| Í á 
|| |Decodificador| | Mapeador || fay) 
! de símbolos inverso || ft ou ) 
ERES ECC E — E 
Decodificador 


Figura 8.5 Diagrama de bloco funcional de um sistema geral de 
compressão de imagens. 
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cador realiza a compressão e o decodificador, a operação 
complementar de descompressão. As duas operações po- 
dem ser realizadas em aplicativos computacionais, como 
no caso de navegadores da Internet e muitos programas 
comerciais de edição de imagens, ou em uma combinação 
de hardware e firmware, como em reprodutores comer- 
ciais de DVDs. Um codec é um dispositivo ou programa capaz 
de realizar tanto a codificação quanto a decodificação. 


A imagem de entrada f(x, ...) é alimentada no co- 
dificador, o que cria uma representação comprimida da 
entrada. Essa representação é armazenada para utiliza- 
ção posterior, ou transmitida para armazenamento e 
utilização em um dispositivo remoto. Quando a repre- 
sentação comprimida é apresentada a seu decodificador 
complementar, uma imagem de saída reconstruída f(x,...) 
é gerada. Em aplicações de imagens estáticas, a entrada 
codificada e a saída do decodificador são f(x, y) e fix, y) 
respectivamente; em aplicações de vídeo, elas são f(x, y, t) e 
fix, y,t), em que o parâmetro discreto t especifica o tem- 
po. Em geral, f(x...) pode ou não ser uma réplica exata 
de f(x, ...). Se for o caso, o sistema de compressão é ca- 
racterizado como livre de erros, sem perda ou de preservação 
de informações. Se não, a imagem de saída reconstruída 
é distorcida e o sistema de compressão é caracterizado 
como com perda. 


Processo de codificação ou compressão 


O codificador da Figura 8.5 foi projetado para re- 
mover as redundâncias descritas nas seções 8.1.1 a 8.1.3 
por meio de uma série de três operações independentes. 
No primeiro estágio do processo de codificação, um 
mapeador transforma f(x, ...) em um formato (normal- 
mente não visual) projetado para reduzir a redun- 


Aqui, a notação f(x, ...) é utilizada para expressar tanto f(x, y) 
quanto f(x, y, t). 
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dância temporal e espacial. Essa operação geralmente é 
reversível e pode ou não reduzir diretamente o volume de 
dados necessários para representar a imagem. A codificação 
run-length (veja as seções 8.1.2 e 8.2.5) é um exemplo de 
mapeamento que normalmente resulta em compressão 
no primeiro passo do processo de codificação. O mapea- 
mento de uma imagem em um conjunto de coeficientes 
de transformação menos correlacionados (veja a Seção 
8.2.8) é um exemplo do caso contrário (os coeficientes 
devem ser posteriormente processados para atingir a 
compressão). Em aplicações de vídeo, o mapeador utiliza 
quadros de vídeo anteriores (e, em alguns casos, poste- 
riores) para facilitar a remoção da redundância temporal. 


O quantizador na Figura 8.5 reduz a precisão da 
saída do mapeador de acordo com um critério de fidelida- 
de predefinido. A meta é manter informações irrelevan- 
tes fora da representação comprimida. Como observamos 
na Seção 8.1.3, essa operação é irreversível. Ela deve ser 
omitida quando se deseja uma compressão livre de erros. 
Em aplicações de vídeo, a taxa de bits da saída codifica- 
da costuma ser medida (em bits/segundo) e utilizada para 
ajustar a operação do quantizador, de forma que uma 
taxa de saída média predeterminada seja mantida. Assim, 
a qualidade visual da saída pode variar de um quadro ao 
outro de acordo com o conteúdo da imagem. 


No terceiro estágio, o estágio final do processo de co- 
dificação, o codificador de símbolos da Figura 8.5 gera um 
código de tamanho variável ou fixo para representar a saída 
do quantizador e mapeia a saída de acordo com o código. 
Em muitos casos, um código de tamanho variável é uti- 
lizado. As palavras-código mais curtas são atribuídas aos 
valores de saída do quantizador com maior ocorrência — 
minimizando, dessa forma, a redundância da codificação. 
Essa operação é reversível. No final do processo, a imagem 
de entrada foi processada para a remoção de cada uma 
das três redundâncias descritas nas seções 8.1.1 a 8.1.3. 


Processo de decodificação ou descompressão 


O decodificador da Figura 8.5 contém apenas dois 
componentes: um decodificador de símbolos e um mapeador 
inverso. Eles realizam, em ordem reversa, as operações 
inversas do codificador de símbolos e do mapeador. Em 
decorrência do fato de a quantização resultar em perda 
irreversível de informações, um bloco de quantizador in- 
verso não é incluído no modelo geral do decodificador. 
Em aplicações de vídeo, quadros de saída decodificados 
são mantidos em um armazenador de quadros interno 
(não mostrado) e utilizados para reinserir a redundância 
temporal que foi removida pelo codificador. 


8.1.7 Padrões de formatos de imagem, contêiners 
e compressão 


No contexto das imagens digitais, um formato de 
arquivo de imagem é uma forma-padrão de organizar e 
armazenar dados de imagens. O padrão define como os 
dados são organizados e o tipo de compressão — se for o 
caso — utilizado. Um contêiner de imagem é similar a um 
formato de arquivo mas lida com diversos tipos de dados 
de imagens. Padrões de compressão de imagens, por outro 
lado, definem procedimentos para a compressão e a des- 
compressão de imagens — isto é, para reduzir o volume 
de dados necessários para representar uma imagem. Es- 
ses padrões são os mais aceitos em relação à tecnologia de 
compressão de imagens. 


A Figura 8.6 relaciona os mais importantes padrões 
de compressão de imagens, formatos de arquivo e con- 
têineres utilizados atualmente, agrupados pelos tipos de 
imagens manipuladas. As entradas em negrito indicam 
padrões internacionais sancionados pela International 
Standards Organization (ISO), pela International Electro- 
technical Commission (IEC) e/ou pela International Tele- 
communications Union (ITU-T) — uma organização das 
Nações Unidas antes chamada Consultative Committee 
of the International Telephone and Telegraph (CCITT). 
Dois padrões de compressão de vídeo, o VC-1 da Socie- 
ty of Motion Pictures and Television Engineers (SMPTE) e o 
AVS do Ministry of Information Industry (MII), da China, 
também foram incluídos. Observe que eles são mostrados 
em cinza, cor utilizada na Figura 8.6 para indicar entra- 
das que não são sancionadas por uma organização inter- 
nacional de padrões. 


Padrões de compressão de 
imagens, formatos e contêineres 


Imagem estática Vídeo 
l DV 
E | . | P H.261 
Binária Tons contínuos H262 
CCITT Grupo 3 JPEG H263 
CCITT Grupo 4 JPEG-LS H.264 
JBIG (ou JBIG1) JPEG-2000 MPEG-1 
JBIG2 BMP MPEG-2 
TIFF GIF MPEG-4 
ma MPEG-4 AVC 
AVS 
TIFF HDV 
M-JPEG 
QuickTime 
VC-1 (ou WMV9) 


Figura 8.6 Alguns padrões populares de compressão de imagens, 
formatos de arquivo e contêineres. Entradas aceitas internacional- 
mente são mostradas em negrito; todas as outras são mostradas 
em cinza. 
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As tabelas 8.3 e 8.4 apresentam um resumo dos Os métodos de compressão serão abordados na próxi- 
padrões, formatos e contêineres listados na Figura 8.6. ma seção. Nas duas tabelas, referências para as sub- 
Organizações responsáveis, principais aplicações e seções relevantes da Seção 8.2 são mostradas entre 
métodos de compressão suportados são identificados. colchetes. 


Tabela 8.3 Padrões de compressão de imagens internacionalmente sancionados. Os números entre colchetes indicam seções neste capítulo. 


Nome 


Organização 


Imagens estáticas binárias 


Descrição 


Projetado como um método de fac-símile (fax) para a transmissão de documentos binários através de linhas telefônicas. 


SUI Grupo:3 tal Suporta codificação run-length 1-D e 2-D [8.2.5] e de Huffman [8.2.1]. 
CCITT Grupo 4 ITU-T Uma versão simplificada e otimizada do padrão CCITT Grupo 3 suportando somente a codificação run-length 2-D. 
Um padrão do Joint Bi-level Image Experts Group para a compressão progressiva e sem perda de imagens binárias. Imagens 
JBIG ou JBIG1 | ISO/IEC/ITU-T de tons continuos de até 6 bits/pixel podem ser codificadas com base em planos de bits [8.2.7]. A codificação aritmética 
sensível ao contexto [8.2.3] é utilizada e uma versão inicial de baixa resolução da imagem pode ser gradualmente realçada 
com dados comprimidos adicionais. 
Uma melhoria do JBIG1 para imagens binárias para aplicações em PCs, Internet e fax. O método de compressão utilizado 
JBIG2 ISO/IEC/ITU-T | se baseia em conteúdo, com métodos baseados em dicionário [8.2.6] para regiões de texto e meio-tom, e na codificação de 


Imagens estáticas de tons contínuos 


Huffman [8.2.1] ou codificação aritmética [8.2.3] para outros conteúdos de imagem. Esse padrão pode ser com ou sem perda. 


Um padrão do Joint Photographic Experts Group para imagens de qualidade fotográfica. Seu sistema de codificação baseline 
(mais comumente implementado) utiliza como quantizador a transformada discreta de cossenos (DCT, de discrete cosine 


JPEG ISOAEC/ATU- transform) em blocos de imagens de 8 x 8 [8.2.8], e codificadores de Huffman [8.2.1] e run-length [8.2.5]. É um dos métodos 
mais populares para a compressão de imagens na Internet. 
JPEGAS ISO/IEC/ITU-T Um padrão sem perda ou quase sem perda para imagens de tons contínuos baseado em previsão adaptativa [8.2.9], modela- 
É gem por contexto [8.2.3] e codificação de Golomb [8.2.2]. 
JPEG-2000 | ISO/IEC/ITU-T Uma melhoria do JPEG para maior compressão de imagens de qualidade fotográfica. São utilizadas a codificação aritmética 
E [8.2.3] e a transformada wavelet discreta (DWT) como quantizador [8.2.10]. A compressão pode ser com ou sem perda. 
Vídeo 
Vídeo digital. Um padrão de vídeo projetado para equipamentos e aplicações de produção semiprofissional de vídeo — como 
DV IEC aquisição eletrônica de notícias e filmadoras. Os quadros são independentemente comprimidos para uma edição simples 
utilizando uma abordagem baseada em DCT [8.2.8] similar ao JPEG. 
Um padrão de videoconferência bidirecional para linhas ISON (integrated services digital network). O padrão suporta ima- 
gens 352 x 288 e 176 x 144 pixels de resolução não entrelaçadas, chamadas CIF (common intermediate format) e QCIF 
H.261 TUT (quarter CIP, respectivamente. É utilizada uma abordagem de compressão baseada em DCT [8.2.8] similar ao JPEG, com 
diferenciação de previsão quadro a quadro [8.2.9] para reduzir a redundância temporal. Uma técnica baseada em blocos é 
utilizada para compensar o movimento entre quadros. 
H.262 TUT Veja MPEG-2, abaixo. 
H263 TUT Uma versão melhorada do H.261, projetada para modems telefônicos comuns (isto é, de 28,8 Kb/s) com resoluções adicio- 
i nais: SQCIF (sub-quarter CIF 128 x 96), 4CIF (704 x 576) e 16CIF (1.408 x 512). 
Uma extensão do H.261-H.263 para videoconferência, streaming de Internet e teledifusão. Suporta diferenças de previsão 
H.264 TUT em quadros [8.2.9], transformadas de inteiro de tamanho de bloco variável (em vez de DCT) e codificação aritmética adapta- 
tiva ao contexto [8.2.3]. 
Um padrão do Motion Pictures Expert Group para aplicações de CD-ROM com vídeo não entrelaçado de até 1,5 Mb/s. Similar ao 
MPEG-1 ISO/IEC | H.261, mas as previsões de quadros podem ser baseadas no quadro anterior, no quadro seguinte ou em uma interpolação dos dois. 
Padrão suportado por quase todos os computadores e aparelhos de DVD. 
Uma extensão do MPEG-1 projetada para DVDs com taxas de transferência de 15 Mb/s. Suporta vídeo entrelaçado e HDTV. 
MPEG-2 ISO/IEC e > ; z 
E o mais bem-sucedido padrão de vídeo até o momento. 
MPEG-4 ISO/IEC Uma extensão do MPEG-2 que suporta tamanhos variáveis de blocos e diferenciação de previsão [8.2.9] em quadros. 
MPEG-4 AVC ISO/IEC MPEG-4 Parte 10 advanced video coding (AVC). Idêntico ao H.264. 
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Tabela 8.4 Padrões populares de compressão de imagens, formatos de arquivo e contêineres não incluídos na Tabela 8.3. 


Nome Organização Descrição 
Imagens estáticas de tons contínuos 
BMP Microsoft Windows Bitmap. Um formato de arquivo utilizado principalmente para imagens simples não comprimidas. 
Graphic Interchange Format. Um formato de arquivo que utiliza codificação LZW sem perda [8.2.4] para imagens de 1 a 8 bits. 
GIF CompuServe e E i . z 
E utilizado frequentemente para realizar pequenas animações e filmes curtos de baixa resolução para a Internet. 
Portable Document Format. Um formato para representar documentos 2-D em um dispositivo e de forma independente da re- 
PDF Adobe Systems | solução. Pode funcionar como um contêiner para imagens JPEG, JPEG 2000, CCITT e outras imagens comprimidas. Algumas 
versões de PDF se tornaram padrões da ISO. 
. Portable Network Graphics. Um formato de arquivo que comprime sem perda imagens coloridas com transparência (até 
World Wide Web ao o : a . 
PNG : 48 bits/pixel) por meio da codificação da diferença entre o valor de cada pixel e um valor preditivo baseado em pixels 
Consortium (W3C) 
passados [8.2.9]. 
TIFF Aldus Tagged Image File Format. Um formato de arquivo flexível que suporta vários padrões de compressão de imagens, incluindo 
JPEG, JPEG-LS, JPEG-2000, JBIG2, entre outros. 
Vídeo 
AVS MII Audio-Video Standard. Similar ao padrão H.264, mas utiliza a codificação exponencial de Golomb [8.2.2]. Desenvolvido 
na China. 
HDV Consórcio de | High Definition Video. Uma extensão do DV para HDTV que utiliza uma compressão similar ao padrão MPEG-2, incluindo 
empresas remoção de redundância temporal pela diferenciação da previsão [8.2.9]. 
M-JPEG | Várias empresas Motion JPEG. Um formato de compressão no qual cada quadro é comprimido independentemente utilizando o JPEG. 
QuickTime | Apple Computer | Um contêiner de mídia que suporta DV, H.261, H.262, H.264, MPEG-1, MPEG-2, MPEG-4 e outros formatos de compressão de vídeo. 
VC SMPTE O formato de vídeo mais utilizado na Internet. Adotado por HD e DVDs de alta definição Blu-ray. Similar ao padrão H.264/ 
. AVC, utilizando uma DCT de número inteiro com vários tamanhos de bloco [8.2.8 e 8.2.9] e tabelas de códigos de tamanho 
WMV Microsoft variável dependentes do contexto [8.2.1] — mas sem previsões de quadros. 


8.2 Alguns métodos básicos 
de compressão 


Nesta seção, descreveremos os principais métodos 
de compressão com perda e livre de erros utilizados 
atualmente. Nos concentraremos nos métodos que se 
provaram úteis em padrões de imagens estáticas binárias 
e de tom contínuo e de compressão de vídeo. Os pró- 
prios padrões são utilizados para demonstrar os métodos 
apresentados. 


8.2.1. Codificação de Huffman 


Uma das técnicas mais populares para remover a 
redundância de codificação foi elaborada por Huffman 
[Huffman (1952)].* Por codificar individualmente os sím- 
bolos de uma fonte de informações, a codificação de Huffman 
resulta no menor número possível de símbolos-código por 
símbolo-fonte. Em termos do primeiro teorema de Shannon 
(veja a Seção 8.1.4), o código resultante é ótimo para um 
valor fixo n, sujeito à restrição de que os símbolos-fonte 
podem ser codificados um de cada vez. Na prática, os sím- 


* Em relação às tabelas 8.3 e 8.4, os códigos de Huffman são utiliza- 
dos em: CCITT; JBIG2; JPEG; MPEG-1,2,4; H261; H.262; H.263; 
H.264 e outros padrões de compressão. 


bolos-fonte podem ser as intensidades de uma imagem ou 
a saída de uma operação de mapeamento de intensidade 
(diferenças de pixels, run-lengths e assim por diante). 


O primeiro passo no método de Huffman é criar 
uma série de reduções de fonte rearranjando as proba- 
bilidades dos símbolos sendo analisados e combinan- 
do os símbolos de menor probabilidade em um único 
símbolo que os substitui na próxima redução de fonte. 
A Figura 8.7 ilustra esse processo para a codificação bi- 
nária (códigos de Huffman K-ários também podem ser 
construídos). À esquerda, um conjunto hipotético de 
símbolos de fonte e suas probabilidades são ordenados 
de cima a baixo em ordem decrescente de valores de 
probabilidade. Para formar a primeira redução de fonte, 


Fonte original Redução de fonte 

Símbolo Probabilidade 1 2 3 4 

ay 0,4 0,4 0,4 0,4 — 0,6 

a6 0,3 0,3 0,3 034 0,4 

ay 0,1 0,1 0,2 ~+ 0,3 À 

a4 0,1 0,1 T 0,14 

as 0,06 i 0,1 

as 0,04 


Figura 8.7 Reduções de fonte de Huffman. 


as duas probabilidades inferiores, 0,06 e 0,04, são com- 
binadas para formar um “símbolo composto”, com probabi- 
lidade 0,1. Esse símbolo composto e sua probabilidade 
associada são posicionados na primeira coluna de re- 
dução de fonte, de forma que as probabilidades da 
fonte reduzida também sejam ordenadas do mais ao 
menos provável. Esse processo é, então, repetido até 
que uma fonte reduzida com dois símbolos (à direita) 
seja atingida. 

O segundo passo no procedimento de Huffman é 
codificar cada fonte reduzida, a começar com a menor 
fonte e voltando até chegar à fonte original. Naturalmen- 
te, o código binário de tamanho mínimo para uma fonte 
de dois símbolos são os símbolos 0 e 1. Como mostra a 
Figura 8.8, esses símbolos são atribuídos aos dois símbo- 
los à direita (a atribuição é arbitrária; também é possível 
reverter a ordem de 0 e 1). À medida que o símbolo-fonte 
reduzido com probabilidade 0,6 é gerado pela combinação 
de dois símbolos na fonte reduzida à sua esquerda, o 0 
utilizado para codificá-la passa a ser atribuído a esses dois 
símbolos, e O e 1 são arbitrariamente atribuídos a cada um 
para distingui-los um do outro. Essa operação é repetida 
para cada fonte reduzida até a fonte original ser atin- 
gida. O código final é mostrado à esquerda na Figura 8.8. 
O tamanho médio desse código é 


méd 


L (0,4) (1) + (0,3)(2) + (0,1) (3) + (0,1) (4) 4 
(0,06) (5) + (0,04) (5) 


= 2,2 bits/pixel 


e a entropia da fonte é 2,14 bits/simbolo. 


O procedimento de Huffman cria o código ótimo 
para um conjunto de símbolos e probabilidades sob a res- 
trição de que os símbolos sejam codificados um por vez. 
Depois de o código ser criado, a codificação e/ou a decodi- 
ficação livre de erros é obtida por meio da simples criação 
de uma tabela de indexação (look-up table). O código em 
si é um código de blocos instantaneamente decodificável 
de maneira única. Ele é chamado código de blocos, porque 
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cada simbolo-fonte é mapeado em uma sequência fixa 
de símbolos de código. Ele é instantâneo, porque cada pa- 
lavra-código em uma sequência de símbolos de código 
pode ser decodificada sem referência aos símbolos su- 
cessivos. Ele é decodificável de modo único porque qualquer 
sequência de símbolos de código pode ser decodificada 
apenas de uma maneira. Dessa forma, qualquer sequên- 
cia de símbolos codificados pela abordagem de Huffman 
pode ser decodificada analisando os símbolos individuais 
da cadeia da esquerda para a direita. Para o código biná- 
rio da Figura 8.8, uma leitura da esquerda para a direita 
da sequência codificada 010100111100 revela que a pri- 
meira palavra-código válida é 01010, que é o código para 
o símbolo a,. O próximo código válido é 011, que corres- 
ponde ao símbolo a . Prosseguir dessa forma revela que a 


mensagem completamente decodificada é a,a a a a.. 


Exemplo 8.4 Codificação de Huffman. 


A imagem 512 x 512 monocromática de 8 bits da Fi- 
gura 8.9(a) tem o histograma de intensidades mostrado na 
Figura 8.9(b). Pelo fato de as intensidades não serem igual- 
mente prováveis, uma implementação em Matlab do pro- 
cedimento de Huffman foi utilizada para codificá-las com 
7,428 bits/pixel — incluindo a tabela de código de Huffman 
necessária para reconstruir as intensidades da imagem origi- 
nal de 8 bits. A representação comprimida excede a entropia 
estimada da imagem (7,3838 bits/pixel da Equação 8.1-7) 
em 512? x (7,428 — 7,3838) ou 11.587 bits — cerca de 0,6%. 
A taxa de compressão resultante e a redundância relativa cor- 
respondente são C = 8/7,428 = 1,077 e R = 1 - (1/1,077) = 
0,0715, respectivamente. Dessa forma, 7,15% da represen- 
tação original de 8 bits de intensidade de tamanho fixo 
foram removidos como redundância de codificação. 

= 


Quando um número grande de símbolos deve 
ser codificado, a construção de um código de Huffman 
otimizado não é tarefa trivial. Para o caso geral de J 
simbolos-fonte, J probabilidades de símbolo, J — 2 redu- 
ções de fonte e J- 2 atribuições de código são necessárias. 
Quando probabilidades de símbolo-fonte podem ser 


Fonte original 


Redução de fonte 


Símbolo Probabilidade Código 1 2 3 4 
ay 0,4 1 04 1 04 1 04 1 —0,6 0 
as 0,3 00 0,3 00 0,3 00 0,3 00) 04 1 
a 0,1 011 0,1 011 02 01003 01< 
a4 0,1 0100 0,1 0100 =| 04 011 <4 
a3 0,06 01010 ~——0,1 0101 
as 0,04 01011 <4 


Figura 8.8 Procedimento de Huffman de atribuição de códigos. 
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Figura 8.9 (a) Uma imagem 512 x 512 de 8 bits e (b) seu histograma. 


antecipadamente estimadas, uma codificação “quase 
ótima” pode ser atingida com códigos de Huffman pré- 
calculados. Vários padrões populares de compressão de 
imagens, incluindo os padrões JPEG e MPEG, anali- 
sados nas seções 8.2.8 e 8.2.9, especificam tabelas de 
codificação predeterminadas de Huffman que foram 
pré-calculadas com base em dados experimentais. 


8.2.2 Codificação de Golomb 


Nesta seção, analisaremos a codificação de entradas de 
número inteiro não negativas com distribuição de proba- 
bilidade exponencialmente decrescente. Entradas desse 
tipo podem ser codificadas de forma otimizada (no con- 
texto do primeiro teorema de Shannon) utilizando uma 
família de códigos computacionalmente mais simples do 
que os códigos de Huffman. Os códigos em si foram pro- 
postos pela primeira vez para a representação run-length 
não negativa [Golomb (1966)]. Na discussão que se se- 
gue, a notação |x! indica o maior número inteiro menor 
que ou igual a x, [xlindica o menor número inteiro maior 
que ou igual a xe x mod y é o resto da divisão de x por y.* 

Dados um número inteiro não negativo n e m um 
divisor inteiro positivo (m > 0), o código de Golomb de n 
com relação a m, expresso por G (n), é uma combinação 
do código unitário do quociente ln Im! e a representação 
binária de n mod m. G (n) é construído como segue: 

Passo 1. Formamos o código unitário do quociente . 
(O código unitário de um número inteiro q é 
definido como q 1 seguidos de um 0.) 

Passo 2. Temos que k=[log m |, c= 2% — m, r= n mod m, 
e calculamos o resto truncado r’ de forma que 


, _ |r truncado para k—1 bits O<r<c 
r+c truncado para k bits caso contrário 


(8.2-1) 


r 


Passo 3. Concatenamos os resultados dos passos 1 e 2. 


* Em relação às tabelas 8.3 e 8.4, os códigos de Golomb são utiliza- 
dos nas compressões JPEG-LS e AVS. 


Para calcular G (9), por exemplo, começamos deter- 
minando o código unitário do quociente |9/4]=12,25]= 2, 
que é igual a 110 (o resultado do Passo 1). Depois, com 
k=llog,41=2,c=2º-4=0, er = 9mod4, que, em ter- 
mos binários, é 1001 mod 0100 ou 0001. De acordo com 
a Equação 8.2-1, r’ passa a ser r (isto é, 0001), truncado 
para 2 bits, que é 01 (o resultado do Passo 2). Por fim, con- 
catenamos 110 do Passo 1 e 01 do Passo 2 para obter 11001, 
que é G,(9). 


Para o caso especial de m = 2*, temos que c = 0 
e r’ = r = nmodm truncado para k bits na Equação 8.2-1 
para todos os n. As divisões necessárias para gerar os 
códigos de Golomb resultantes se tornam operações de 
rotação binária e os códigos computacionalmente mais 
simples são chamados códigos de Golomb-Rice ou códigos de 
Rice [Rice (1975)]. As colunas 2, 3 e 4 da Tabela 8.5 rela- 
cionam os códigos G,, G, e G, dos dez primeiros números 
inteiros não negativos. Como m é uma potência de 2 em 
cada caso (isto é, 1 = 2°, 2 = 2! e 4 = 22), eles também são 
os três primeiros códigos de Golomb-Rice. Além disso, G, 
é o código unitário dos números inteiros não negativos 
porque ln/1! = n e nmod1 = 0 para todos os n. 


Tendo em mente que os códigos de Golomb só po- 
dem ser utilizados para representar números inteiros não 
negativos e que existem muitos códigos de Golomb para 
escolher, um passo importante para sua aplicação eficaz é a 
seleção do divisor m. Quando os números inteiros a serem 
representados são geometricamente distribuídos com a função 
massa de probabilidade (PME, de probability mass function)” 


P(n) = (1 — p)p" (8.2-2) 


Tabela 8.5 Varios códigos de Golomb para os números intei- 


ros 0-9. 
n Gn) Gn) Gn) G sln) 
0 0 00 000 0 
1 10 01 001 00 
2 110 00 010 01 
3 110 01 011 000 
4 11110 1100 000 001 
5 111110 1101 001 010 
6 1111110 11100 010 011 
7 11111110 11101 011 1110000 
8 111111110 111100 11000 1110001 
9 1111111110 111101 11001 1110010 


“A função massa de probabilidade (PMF)é uma função que define a 
probabilidade de uma variável aleatória discreta ser exatamente 
igual a determinado valor. Uma PMF difere de uma PDF no sentido 
de que os valores de uma PDF não são probabilidades; em vez disso, 
a integral de uma PDF ao longo de um intervalo especificado é 
uma probabilidade. 


para alguns 0 < p < 1, é possível demonstrar que os có- 
digos de Golomb são ótimos — no sentido de que G (n) 
proporciona o menor tamanho de código médio para 
todos os códigos decifráveis de modo único — quando 
[Gallager e Voorhis (1975)]* 


log, (1+ p) 
log, (1/p) 


A Figura 8.10(a) representa graficamente a Equação 
8.2-2 para três valores de e ilustra graficamente as pro- 
babilidades de símbolo dos códigos de Golomb serem 
eficazes (isto é, bem codificados). Como mostra a figura, 
números inteiros pequenos são muito mais prováveis do 
que os grandes.” 


(8.2-3) 


Em virtude do fato de as probabilidades das intensi- 
dades em uma imagem [veja, por exemplo, o histograma 
da Figura 8.9(b)] terem poucas chances de correspon- 
der às probabilidades especificadas na Equação 8.2-2 e 
mostradas na Figura 8.10(a), os códigos de Golomb rara- 
mente são utilizados para a codificação de intensidades. 
Quando diferenças de intensidade são codificadas, con- 
tudo, as probabilidades dos “valores de diferença” resul- 
tantes (veja a Seção 8.2.9) — com exceção das diferenças 
negativas — muitas vezes se assemelham às da Equação 
8.2-2 e da Figura 8.10(a). Para lidar com diferenças nega- 
tivas na codificação de Golomb, que só pode representar 
números inteiros não negativos, um mapeamento como 


2n n>0 


M(n)= 
a. a20 


(8.2-4) 
costuma ser usado. Utilizando esse mapeamento, por 
exemplo, a PMF de dois lados mostrada na Figura 8.10(b) 


pode ser transformada na PMF de um lado apresentada 
na Figura 8.10(c). Seus números inteiros são reorganizados, 
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alternando os números inteiros negativos e positivos de 
forma que os números inteiros sejam mapeados nas posi- 
ções de números inteiros positivos ímpares. Se P(n) for 
de dois lados e centralizado em zero, P((M(n)) será de 
um lado. Os números inteiros mapeados, M(n), podem 
então ser codificados com eficácia utilizando um código 
Golomb-Rice apropriado [Weinberger et al. (1996)]. 


= 
Exemplo 8.5 Codificação de Golomb-Rice. 


Considere novamente a imagem da Figura 8.1(c) e ob- 
serve que seu histograma — veja a Figura 8.3(a) — é similar 
à distribuição de dois lados da Figura 8.10(b). Se fizermos 
que n seja uma intensidade de número inteiro não negativo 
na imagem, em que 0 < n < 255, e u seja a intensidade 
média, P(n — u) é a distribuição de dois lados mostrada na 
Figura 8.11 (a). Esse gráfico foi gerado normalizando o histo- 
grama na Figura 8.3(a) pelo número total de pixels da ima- 
gem e deslocando os valores normalizados para a esquerda 
por 128 (que resulta em subtrair a intensidade média da 
imagem). De acordo com a Equação 8.2-4, P(M (n — u)) é, 
então, a distribuição de um lado mostrada na Figura 8.11 (b). 
Se os valores de intensidade reordenados forem codificados 
por Golomb utilizando uma implementação em Matlab do 
código G, na coluna 2 da Tabela 8.5, a representação codi- 
ficada é 4,5 vezes menor que a imagem original (isto é, 
C = 4,5). O G, realiza 4,5/5,1 ou 88% da compressão teó- 
rica possível com a codificação de tamanho variável. (Com 
base na entropia calculada no Exemplo 8.2, a taxa máxima 
possível de compressão por meio da codificação de tamanho 
variável é C = 8/1,566 = 5,1.) Além disso, a codificação de 
Golomb atinge 96% da compressão proporcionada por uma 
implementação em Matlab da abordagem de Huffman — e 
não requer o cálculo de uma tabela customizada como na 
codificação de Huffman. 

Vejamos agora a imagem da Figura 8.9(a). Se suas 
intensidades forem codificadas por Golomb utilizando o 
mesmo código G, usado antes, C = 0,0922. Isto é, ocorre a 


a 1 T T T T T T T T b 1 T T T T T T T if jj C 1 T T 7 T T T T T 
0,8 08 4 0.84 4 
E 
Š 06 0.6 b 4 0,6 + 4 
E 
8 04 04 4 04 4 
à \ 
0,2 E 02 4 02+ 4 


Figura 8.10 
e (c) uma versão reordenada de (b) utilizando a Equação 8.2-4. 


n M(n) 


(a) Três distribuições geométricas de um lado da Equação 8.2-2; (b) uma distribuição de dois lados exponencialmente decrescente; 


* A distribuição de probabilidade discreta definida pela PMF na Equação 8.2-2 é chamada distribuição de probabilidade geométrica. Sua equi- 


valente contínua é a distribuição exponencial. 
** À representação gráfica de uma PMF é um histograma. 
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Figura 8.11 (a) A distribuição de probabilidade da imagem da 
Figura 8.1(c) depois de subtrair a intensidade média de cada pixel e (b) 
uma versão mapeada de (a) utilizando a Equação 8.2-4. 


expansão de dados. Isso se deve ao fato de que as probabilida- 
des das intensidades da imagem da Figura 8.9(a) são muito 
diferentes das probabilidades definidas na Equação 8.2-2.º 
De forma similar, os códigos de Huffman podem produzir 
a expansão de dados quando utilizados para codificar sím- 
bolos cujas probabilidades são diferentes das probabilidades 
para as quais o código foi calculado. Na prática, quanto mais 
nos distanciamos das premissas de probabilidade da entrada 
para a qual um código foi projetado, maior é o risco de um 
baixo desempenho da compressão e expansão dos dados. 

E 


Para concluir nossa explicação dos códigos de Go- 
lomb, observamos que a coluna 5 da Tabela 8.5 contém 
os dez primeiros códigos do código Golomb-exponencial de 
ordem zero, expresso por Gal). Os códigos Golomb-ex- 
ponenciais são úteis para a codificação run-length porque 
tanto sequências curtas quanto longas são codificadas 
com eficácia. Um código Gi p(t) Golomb-exponencial de 
ordem k é calculado como se segue: 

Passo 1. Encontramos um número inteiro i > 0, de 
forma que 


it. i . 
> Qitk < n< >» Qitk 


j=0 j=0 


(8.2-5) 


e formamos um código unitário de i Se k = 0, i = 
log (n+1)! e o código também é conhecido como o có- 
digo gama de Elias. 


Passo 2. Truncamos a representação binária de 


RB] 
n— > pit 


j=0 


(8.2-6) 
para os k + i bits menos significativos. 


Passo 3. Concatenamos os resultados dos passos 1 e 2. 


* Quando C for menor que 1 na Equação 8.1-2, ocorre a expansão 
de dados. 


Para calcular Gop (8), por exemplo, fazemos que 
i =llog, 9! ou 3 no Passo 1 porque k = 0. Dessa forma, a 
Equação 8.2-5 é satisfeita, pois 
3-1 


. 3 : 
» 2H < 8 < y ze 


j=0 j=0 

2'<8<52 

j=0 j=0 

2°40 497<8<9°4+2'+9? 42? 
748<15 


Men 


Y 


O código unitário de 3 é 1110 e a Equação 8.2-6 do 
Passo 2 resulta em 


3-1 2 
8-22" =8- 27 =8 (2° + 2'+27)=8-7=1=0001 
J= J= 

que, quando truncado para seus 3 + 0 bits menos signi- 
ficativos, passa a ser 001. A concatenação dos resultados 
dos passos 1 e 2 resulta em 1110001. Observe que esta 
é a entrada da coluna 4 da Tabela 8.5 para n = 8. Por 
fim, observamos que, da mesma forma que os códigos 
de Huffman da seção anterior, os códigos de Golomb da 
tabela são códigos de blocos decodificáveis de modo único, 
instantaneamente e de tamanho variável. 


8.2.3 Codificação aritmética 


Diferentemente dos códigos de tamanho variável 
das duas seções anteriores, a codificação aritmética gera 
códigos sem serem em blocos.” Na codificação aritmé- 
tica, que remonta do trabalho de Elias [veja Abramson 
(1963)], não existe uma correspondência um a um entre 
símbolos-fonte e palavras-código. Em vez disso, uma se- 
quência inteira de símbolos-fonte (ou mensagem) é atri- 
buída a uma única palavra-código aritmética. A palavra- 
-código em si define um intervalo de números reais entre 
0 e 1. À medida que o número de símbolos na mensagem 
aumenta, o intervalo utilizado para representá-lo dimi- 
nui e o número de unidades de informação (digamos, 
bits) necessárias para representar o intervalo aumenta. 
Cada símbolo da mensagem reduz o tamanho do interva- 
lo de acordo com sua probabilidade de ocorrência. Como 
a técnica não requer, como o método de Huffman, que 
cada simbolo-fonte seja traduzido em um número inteiro 
de símbolos-código (isto é, que os símbolos sejam codi- 
ficados um por vez), ela atinge (mas somente na teoria) 
o limite estabelecido pelo primeiro teorema de Shannon 
(teorema de codificação sem ruído), da Seção 8.1.4. 

“ Em relação às tabelas 8.3 e 8.4, a codificação aritmética é utiliza- 


da em: JBIG1; JBIG2; JPEG-2000; H.264; MPEG-4 AVC e outros 
padrões de compressão. 


A Figura 8.12 ilustra o processo básico da codi- 
ficação aritmética. No caso, uma sequência ou men- 
sagem de cinco símbolos, a a,a,a,a, a partir de uma 
fonte de quatro símbolos, é codificada. No início do 
processo de codificação, considera-se que a mensagem 
ocupe todo o intervalo semiaberto [0, 1). Como mostra 
a Tabela 8.6, esse intervalo é inicialmente subdividido 
em quatro regiões com base nas probabilidades de cada 
simbolo-fonte. O símbolo a,, por exemplo, é associado 
ao subintervalo [0, 0,2). Por ser o primeiro símbolo da 
mensagem sendo codificada, o intervalo de mensagem 
é inicialmente estreitado para [0, 0,2). Dessa forma, na 
Figura 8.12, [0, 0,2) é expandido em relação a altura 
total da figura e suas extremidades rotuladas pelos va- 
lores do intervalo estreitado. O intervalo estreitado é 
então subdividido de acordo com as probabilidades dos 
símbolos-fonte original e o processo prossegue para o 
próximo símbolo da mensagem. Dessa forma, o símbo- 
lo a, estreita o subintervalo em [0,04, 0,08), a, o estreita 
adicionalmente em [0,056, 0,072) e assim por diante. O 
símbolo final da mensagem, que deve ser tomado como 
um indicador especial de fim de mensagem, estreita a 
mensagem em [0,06752, 0,0688). Claramente, qualquer 
número nesse intervalo — por exemplo, 0,068 — pode 
ser utilizado para representar a mensagem. 


Na mensagem aritmeticamente codificada da Figura 
8.12, três dígitos decimais são utilizados para representar a 
mensagem de cinco símbolos. Isso se traduz em 0,6 dígito 
decimal por símbolo-fonte, comparando favoravelmente 
com a entropia da fonte que, a partir da Equação 8.1-6, é 
de 0,58 dígitos por símbolo-fonte. À medida que o ta- 
manho da sequência sendo codificada aumenta, o có- 
digo aritmético resultante se aproxima do limite estabele- 
cido pelo primeiro teorema de Shannon. Na prática, dois 
fatores fazem a performance de codificação ficar aquém 
do limite: (1) a adição do indicador de fim de mensagem 
necessário para separar uma mensagem da outra; e (2) a 
utilização de precisão aritmética finita. Implementações 


Sequência de codificação — + 

a, a, as as as 
15 0,25 0,08 5 0,072 0,0688 — — 
as a, a, a, a4 
4 4 + 0,06752 4 — 
a3 a3 a3 a3 a3 
a, a, a, a, a, 
ai ay ay ay ay 

0 ~ 0 0,04 — 0,056 0,0624 — 


Figura 8.12 Procedimento da codificação aritmética. 
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Tabela 8.6 Exemplo de codificação aritmética. 


Simbolo-fonte Probabilidade Subintervalo inicial 
a, 0,2 (0,0, 0,2) 
a, 0,2 (0,2, 0,4) 
a, 0,4 (0,4, 0,8) 
a, 0,2 (0,8, 1,0) 


práticas da codificação aritmética tratam do ultimo proble- 
ma introduzindo uma estratégia de mudança de escala e 
de arredondamento [Langdon e Rissanen (1981)]. A estra- 
tégia de mudança de escala renormaliza cada subintervalo 
para o intervalo [0, 1) antes de subdividi-lo de acordo com 
as probabilidades dos símbolos. A estratégia de arredonda- 
mento garante que os truncamentos associados à aritmética 
de precisão finita não impeçam que os subintervalos codi- 
ficados sejam representados precisamente. 


Estimativas de probabilidade adaptativas e depen- 
dentes de contexto 


Com modelos de probabilidade precisos de símbolo de 
entrada, isto é, modelos que proporcionam as verdadei- 
ras probabilidades dos símbolos que estão sendo codifica- 
dos, os codificadores aritméticos se aproximam do ótimo 
no sentido de minimizar o número médio de símbolos 
de código necessários para representar os símbolos codi- 
ficados. Da mesma forma que a codificação tanto de 
Huffman quanto de Golomb, contudo, modelos imprecisos 
de probabilidade podem levar a resultados não ótimos. 
Uma forma simples de melhorar a precisão das probabi- 
lidades empregadas é utilizar um modelo de probabilidade 
adaptativo e dependente do contexto. Os modelos de pro- 
babilidade adaptativos atualizam as probabilidades dos 
símbolos à medida que os símbolos são codificados ou 
passam a ser conhecidos. Dessa forma, as probabilidades 
se adaptam às estatísticas locais dos símbolos sendo co- 
dificados. Modelos dependentes do contexto proporcionam 
probabilidades baseadas em uma vizinhança predefinida 
de pixels — chamada contexto — ao redor dos símbolos 
sendo codificados. Normalmente, é utilizado um contexto 
causal — limitado aos símbolos que já foram codificados. 
Tanto o codificador-Q [Pennebaker et al. (1988)] quanto 
o codificador-MQ [ISO/IEC (2000)], duas técnicas de co- 
dificação aritmética bem conhecidas que foram incorpo- 
radas ao JBIG, JPEG-2000 e outros importantes padrões 
de compressão de imagens utilizam modelos de probabi- 
lidade tanto adaptativos quanto dependentes de contexto. O 
codificador-Q atualiza de modo dinâmico as probabilidades 
dos símbolos durante as renormalizações de intervalo que 
fazem parte do processo de codificação aritmética. Modelos 
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adaptativos e dependentes de contexto também têm sido 
utilizados na codificação de Golomb — por exemplo, no 
padrão de compressão JPEG-LS. 


A Figura 8.13(a) apresenta um diagrama dos passos 
envolvidos na codificação aritmética adaptativa e depen- 
dente de contexto de símbolos de fonte binária. A codifi- 
cação aritmética muitas vezes é utilizada na codificação de 
símbolos binários. À medida que cada símbolo (ou bit) ini- 
cia o processo de codificação, seu contexto é formado no 
bloco Determinação de contexto da Figura 8.13(a). As figuras 
8.13(b) a (d) mostram três contextos possíveis que podem 
ser utilizados: (1) o símbolo imediatamente anterior; (2) 
um grupo de símbolos anteriores; e (3) alguns números 
de símbolos anteriores adicionados dos símbolos na linha 
de varredura anterior. Para os três casos apresentados, o 
bloco Estimativa de probabilidade deve lidar com 2! (ou 2), 
2º (ou 256) e 2º (ou 32) contextos e suas probabilidades 
associadas. Por exemplo, se o contexto da Figura 8.13(b) 
é utilizado, e as probabilidades condicionais P(0|a = 0) 
(a probabilidade do símbolo codificado ser um 0, dado que 
o símbolo precedente é um 0), P(1ļa = 0), P(O|a = 1), 
e P(1|a = 1) e devem ser monitoradas. As probabilidades 
apropriadas são, então, passadas para o bloco Codificação 
aritmética como uma função do contexto atual e levam à 
geração da sequência de saída aritmeticamente codificada 
de acordo com o processo ilustrado na Figura 8.12. As pro- 
babilidades associadas ao contexto envolvido no passo de 
codificação atual são, então, atualizadas para refletir o fato 
de que outro símbolo nesse contexto foi processado. 


Por fim, observamos que várias técnicas de codifi- 
cação aritmética são protegidas por patentes norte-ame- 
ricanas (e também podem ser protegidas em outras ju- 


a Atualização da 
probabilidade para 
o contexto atual 


risdições). Devido a essas patentes e à possibilidade de 
multas por sua violação, a maioria das implementações 
do padrão de compressão JPEG, que contém opções para 
a codificação tanto de Huffman quanto aritmética, nor- 
malmente suporta apenas a codificação de Huffman. 


8.2.4 Codificação de LZW 


As técnicas abordadas nas seções anteriores se con- 
centram na remoção da redundância de codificação. 
Nesta seção, analisamos uma abordagem de compressão 
livre de erros que também lida com as redundâncias es- 
paciais em uma imagem.” A técnica, chamada codificação 
de Lempel-Ziv-Welch (LZW), atribui palavras-código de ta- 
manho fixo a sequências de símbolos-fonte de tamanho 
variável. Lembre-se, como vimos na Seção 8.1.4, de que 
Shannon utilizou a ideia de sequências de codificação de 
símbolos-fonte em vez de símbolos individuais de fonte 
para comprovar seu primeiro teorema. Uma importante 
característica da codificação LZW é que ela não requer 
conhecimento antecipado da probabilidade de ocorrência 
dos símbolos que serão codificados. Apesar do fato de que 
até recentemente essa codificação era protegida por uma 
patente norte-americana, a compressão LZW tem sido 
integrada a vários formatos de arquivos e imagem ampla- 
mente utilizados, incluindo GIF, TIFF e PDF. O formato 
PNG foi criado para contornar os requisitos de licencia- 
mento da compressão de LZW. 


Exemplo 8.6 Codificação de LZW. 


Veja novamente a imagem 512 x 512 de 8 bits da 
Figura 8.9(a). Utilizando o Adobe Photoshop, uma versão TIFF 
não comprimida dessa imagem requer 286.740 bytes de 
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Figura 8.13 
binários). (b) a (d) Três modelos de contexto possíveis. 


Símbolo sendo codificado 


Símbolo sendo codificado 


(a) Uma abordagem de codificação aritmética adaptativa e baseada no contexto (muitas vezes utilizada para fontes de símbolos 


* Em relação às tabelas 8.3 e 8.4, a codificação de LZW é utilizada nos formatos GIF, TIFF e PDF, mas não em qualquer um dos padrões de 


compressão internacionalmente sancionados. 


espaço em disco — 262.144 bytes para os 512 x 512 pixels 
de 8 bits mais 24.596 de cabeçalho. Utilizando a opção de 
compressão de LZW do TIFF, contudo, o arquivo resultante 
terá 224.420 bytes. A taxa de compressão é C = 1,28. Lem- 
bre-se de que, para a representação codificada de Huffman 
da Figura 8.9(a) no Exemplo 8.4, C = 1,077. A compressão 
adicional obtida pela técnica de LZW se deve à remoção de 
parte da redundância espacial da imagem. 

E 


Conceitualmente, a codificação de LZW é bastante 
simples [Welch (1984)]. No início do processo de codi- 
ficação, é construído um banco de códigos ou dicionário 
contendo os símbolos-fonte a serem codificados. Para 
imagens monocromáticas de 8 bits, as 256 primeiras 
palavras do dicionário são atribuídas às intensidades 0, 
1, 2, ..., 255. À medida que o codificador analisa se- 
quencialmente os pixels da imagem, as sequências de 
intensidade que não estão contidas no dicionário são 
distribuídas em posições algoritmicamente determina- 
das (por exemplo, a próxima localização não utilizada). 
Se os dois primeiros pixels da imagem forem brancos, 
por exemplo, a sequência “255-255” pode ser atribuí- 
da à posição 256, com o endereço seguindo as posições 
reservadas para os níveis de intensidade O a 255. Da 
próxima vez que dois pixels brancos consecutivos forem 
encontrados, a palavra-código 256, o endereço da posi- 
ção contendo a sequência 255-255 é utilizada para 
representá-los. Se um dicionário de 9 bits e 512 palavras 
for empregado no processo de codificação, os (8 + 8) 
bits originais que foram utilizados para representar os 
dois pixels são substituídos por uma única palavra-código de 
9 bits. Claramente, o tamanho do dicionário é um impor- 
tante parâmetro do sistema. Se for pequeno demais, a 
detecção de sequências de nível de intensidade corres- 
pondente será menos provável; se for grande demais, o 
tamanho das palavras-código afetará desfavoravelmen- 
te o desempenho da compressão. 


Exemplo 8.7 Codificação de LZW. 


Considere a imagem de uma borda vertical, de 8 bits e 
com dimensões 4 x 4 pixels: 


39 39 126 126 
39 39 126 126 
39 39 126 126 
39 39 126 126 


A Tabela 8.7 detalha os passos envolvidos na codifica- 
ção de seus 16 pixels. Um dicionário de 512 palavras com o 
seguinte conteúdo inicial é presumido: 


Compressão de imagens 365 


Posição no dicionário Entrada 
0 0 
1 1 
255 255 


511 E 


As posições 256 a 511 inicialmente não são utilizadas. 


A imagem é codificada por meio do processamento de 
seus pixels da esquerda para a direita e de cima para baixo. 
Cada valor de intensidade sucessivo é concatenado com uma 
variável — coluna 1, da Tabela 8.7 — chamada “sequência 
atualmente reconhecida”. Como podemos ver, essa variável 
é inicialmente nula ou vazia. É realizada uma busca no dicio- 
nário para cada sequência concatenada e, se encontrada, 
como foi o caso na primeira linha da tabela, ela é substituí- 
da pela sequência recém-concatenada e reconhecida (isto é, 
localizada no dicionário). Isso foi feito na coluna 1 da linha 
2. Nenhum código de saída é gerado e o dicionário não é 
alterado. Se a sequência concatenada não for encontrada, 
contudo, o endereço da sequência atualmente reconhecida 
é produzida como o próximo valor codificado, a sequência 
concatenada, porém não reconhecida, é incluída no dicio- 
nário e a sequência atualmente reconhecida é inicializada 
no valor do pixel atual. Isso ocorreu na linha 2 da tabela. 
As duas últimas colunas detalham as sequências de inten- 
sidade adicionadas ao dicionário ao varrer toda a imagem. 
Nove palavras-código adicionais são definidas. Na conclusão 
da codificação, o dicionário contém 265 palavras-código e 


Tabela 8.7 Exemplo de codificação de LZW. 


Sequência Posição no 
atualmente dicionário 
reconhe- | Pixelsendo | Saída (palavra- | Entrada do 
cida processado | codificada | código) dicionário 
39 
39 39 39 256 39-39 
39 26 39 257 39-126 
126 26 126 258 126-126 
126 39 126 259 126-39 
39 39 
39-39 26 256 260 39-39-126 
126 26 
126-126 39 258 261 126-126-39 
39 39 
39-39 26 
39-39-126 26 260 262 39-39-126-126 
126 39 
126-39 39 259 263 126-39-39 
39 26 
39-126 26 257 264 39-126-126 
126 126 
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o algoritmo LZW identificou com sucesso várias sequências 
de intensidade repetidas — reduzindo a imagem original de 
128 bits a 90 bits (isto é, dez códigos de 9 bits). A saída codi- 
ficada é obtida lendo a terceira coluna de cima para baixo. A 
taxa de compressão resultante é 1,42:1. 

E 


Uma característica singular da codificação de LZW 
que acabamos de demonstrar é que o dicionário de codi- 
ficação é criado enquanto os dados estão sendo codifica- 
dos. De forma notável, um decodificador de LZW constrói 
um dicionário de descompressão idêntico à medida que 
simultaneamente decodifica a sequência de dados codifi- 
cados. Deixamos como um exercício para o leitor (veja o 
Exercício 8.20) decodificar a saída do exemplo anterior 
e reconstruir o dicionário. Apesar de não ser necessário 
neste exemplo, a maioria das aplicações práticas requer 
uma estratégia para evitar que o dicionário fique grande 
demais. Uma solução simples é reinicializar o dicionário 
quando ele ficar cheio e continuar a codificação com um 
novo dicionário inicializado. Uma opção mais complexa 
é monitorar o desempenho da compressão e inicializar 
o dicionário quando ele se tornar inaceitável. Também é 
possível acompanhar as entradas do dicionário utilizadas 
pela última vez e substituí-las quando necessário. 


8.2.5 Codificação run-length 


Como observamos na Seção 8.1.2, as imagens com 
intensidades repetidas ao longo das linhas (ou colunas) 
muitas vezes podem ser comprimidas se forem repre- 
sentadas por sequências (runs) de intensidades idêntica 
chamadas de pares run-length, em que cada par run-length 
especifica o início de uma nova intensidade e o número 
de pixels consecutivos que apresentam essa mesma in- 
tensidade.” A técnica, chamada codificação run-length (RLE, 
run-length encoding), foi desenvolvida nos anos 1950 e se 
tornou, com suas extensões 2-D, o método-padrão de 
compressão na codificação de fac-símile (fax). A compres- 
são é realizada eliminando-se uma forma simples de redun- 
dância espacial — grupos de intensidades idênticas. Quando 
há poucas (ou nenhuma) sequências de pixels idênticos, a 
codificação run-length resulta na expansão dos dados. 


= 
Exemplo 8.8 RLE no formato de arquivo BMP. 


O formato de arquivo BMP utiliza uma forma de codi- 
ficação run-length na qual os dados da imagem são represen- 
tados em dois modos diferentes: codificado e absoluto — e 
os dois modos podem ocorrer em qualquer ponto da imagem. 


* Em relação às tabelas 8.3 e 8.4, a codificação run-length é utilizada 
em: CCITT; JBIG2; JPEG; M-JPEG; MPEG-1,2,4; BMP e outros 
padrões de compressão e formatos de arquivo. 


No modo codificado, é utilizada uma representação RLE de 
dois bytes. O primeiro byte especifica o número de pixels 
consecutivos que têm o índice de cores contido no segundo 
byte. O índice de cores de 8 bits seleciona a intensidade da 
sequência (valor colorido ou cinza) a partir de uma tabela de 
256 intensidades possíveis. 


No modo absoluto, o primeiro byte é O e o segundo byte 
indica uma de quatro condições possíveis, como mostra a 
Tabela 8.8. Quando o segundo byte for O ou 1, o fim de uma 
linha ou o fim da imagem foi atingido. Se for 2, os dois bytes 
seguintes contêm compensações horizontais e verticais sem 
sinal para uma nova posição espacial (e pixel) da imagem. 
Se o segundo byte for entre 3 e 255, ele especifica o número 
de pixels não comprimidos que se segue — com cada byte 
subsequente contendo o índice de cores de um pixel. O nú- 
mero total de bytes deve ser alinhado a um limite de palavra 
de 16 bits. 

Um arquivo BMP não comprimido (salvo utilizando 
o Photoshop) da imagem 512 x 512 x 8 bits mostrada na 
Figura 8.9(a) requer 263.244 bytes de memória. “Compri- 
mido utilizando a opção RLE do BMP, o arquivo se expande 
para 267.706 bytes — e a taxa de compressão é C = 0,98. 
Não há sequências de intensidade iguais suficientes para que 
a compressão run-length seja eficaz, o que gera uma peque- 
na expansão do volume de dados. Para a imagem da Figura 
8.1(c), contudo, a opção RLE do BMP resulta em uma taxa 
de compressão C = 1,35. 

= 


A codificação run-length é particularmente eficaz ao 
comprimir imagens binárias. Por haver apenas duas in- 
tensidades possíveis (preto e branco), os pixels adjacentes 
têm mais chances de serem idênticos. Além disso, cada 
linha da imagem pode ser representada apenas por uma 
sequência de tamanhos — em vez de pares de tamanhos 
e intensidades como utilizamos no Exemplo 8.8. A ideia 
básica é codificar cada grupo adjacente (sequência ou 
run) de O ou 1 encontrado em uma varredura da esquer- 
da para a direita de uma linha em relação a seu tamanho 
e definir uma convenção para determinar o valor da se- 
quência. As convenções mais comuns são: (1) especificar 
o valor da primeira sequência de cada linha; ou (2) consi- 


Tabela 8.8 Opções do modo de codificação absoluto do formato BMP. 
Nesse modo, o primeiro byte do par BMP é 0. 


Valor do segundo byte Condição 
0 Fim da linha 
1 Fim da imagem 
2 Ir para uma nova posição 
3-255 Especificar individualmente os pixels 


“ Observe que, devido as diferenças no cabeçalho, o arquivo BMP 
não comprimido é menor que o arquivo TIFF não comprimido 
do Exemplo 8.7. 


derar que cada linha começa com uma sequência branca 
cujo tamanho pode ser zero. 


Apesar de a codificação run-length ser, por si só, um 
método eficaz para comprimir imagens binárias, compres- 
são adicional normalmente pode ser alcançada por codi- 
ficação variável dos próprios run-lengths. As run-lengths 
pretas e brancas podem ser separadamente codificadas 
utilizando-se códigos de tamanho variável que sejam 
especificamente adaptadas à sua própria estatística. Por 
exemplo, com o símbolo a representando uma sequên- 
cia preta de tamanho j, podemos estimar a probabilida- 
de de o símbolo a, ser emitido por uma fonte run-length 
preta imaginária dividindo o número de run-lengths pre- 
tas de tamanho j em toda a imagem pelo número total 
de sequências pretas. Uma estimativa da entropia dessa 
fonte run-length preta, indicada por H, é calculada subs- 
tituindo-se essas probabilidades na Equação 8.1-6. Um 
argumento similar pode ser elaborado para a entropia 
das sequências brancas, expressas por H,. Dessa forma, a 
entropia aproximada da run-length da imagem é 

H = H+H, 

RL L Ta L 

0 1 
em que as variáveis L, e L, expressam os valores médios das 
run-lengths pretas e brancas, respectivamente. A Equação 
8.2-7 proporciona uma estimativa do número médio de bits 
por pixel necessários para codificar as run-lengths em uma 
imagem binária utilizando um código de tamanho variável. 


(8.2-7) 


Os dois padrões de compressão de imagens mais an- 
tigos e mais amplamente utilizados são os padrões CCITT 
Grupos 3 e 4 para a compressão de imagens binárias. 
Apesar de serem utilizados em uma série de aplicações 
computacionais, eles foram originalmente projetados 
como métodos de codificação de fac-símile (fax) para a 
transmissão de documentos através de redes telefônicas. 
O padrão Grupo 3 utiliza uma técnica de codificação run- 
length 1-D na qual as últimas K — 1 linhas de cada grupo 
de K linhas (para K = 2 ou 4) podem ser opcionalmente 
codificadas de forma 2-D. O padrão Grupo 4 é uma ver- 
são simplificada ou otimizada do padrão Grupo 3 na qual 
somente a codificação 2-D é permitida. Ambos os padrões 
utilizam a mesma abordagem de codificação 2-D, que é 
bidimensional no sentido de que as informações da linha 
anterior são utilizadas para codificar a linha atual. Tanto a 
codificação 1-D quanto 2-D são discutidas a seguir. 


Compressão CCITT unidimensional 
No padrão de compressão CCITT Grupo 3 1-D, cada 
linha de uma imagem” é codificada como uma série de 


* No padrão, imagens são referidos como páginas e sequências de 
imagens são chamadas documentos. 
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palavras do código de Huffman de tamanho variável que 
representa as run-lengths das sequências brancas e pretas 
alternadas em uma varredura de linha da esquerda para a 
direita. O método de compressão empregado costuma ser 
chamado codificação Huffman modificada (MH, de Modified 
Huffman). As palavras-código em si são de dois tipos, que 
o padrão chama de códigos de terminação (terminating codes) 
e códigos de construção (makeup codes). Se a run-length r for 
menor que 63, um código de terminação da Tabela A.1 
no Apêndice A é utilizado para representá-la. Observe 
que o padrão especifica diferentes códigos de terminação 
para sequências pretas e brancas. Se r > 63, dois códigos 
são utilizados — um código de construção para o quo- 
ciente |r/64] e um código de terminação para o resto, da 
divisão de r por 64.” Os códigos de construção são rela- 
cionados na Tabela A.2 e podem ou não depender da in- 
tensidade (preto ou branco) da sequência que está sendo 
codificada. Se lr/64! < 1.792, códigos de construção sepa- 
rados para as sequências preta e branca são especificados; 
caso contrário, os códigos de construção independem da 
intensidade da sequência. O padrão requer que cada li- 
nha comece com uma palavra-código de uma run-length 
branca, que pode, na verdade, ser 00110101, o código de 
uma sequência branca de tamanho zero. Por fim, uma 
palavra-código única de fim de linha (EOL, de end-of-line) 
000000000001 é utilizada para determinar cada linha, 
bem como para indicar a primeira linha de cada nova 
imagem. O fim de um conjunto de imagens é indicado 
por seis EOLs consecutivos. 


Compressão CCITT bidimensional 


A técnica de compressão 2-D adotada tanto para 
o padrão CCITT Grupo 3 quanto para o CCITT Grupo 
4 é um método linha a linha no qual a posição de cada 
transição de sequência preta para branca ou branca para 
preta é codificada em relação à posição de um elemento 
de referência a, situado na linha de codificação atual. A linha 
anteriormente codificada é chamada linha de referência; 
a linha de referência para a primeira linha de cada nova 
imagem e uma linha branca imaginária. A técnica de 
codificação 2-D utilizada é denominada codificação read 
(Relative Element Address Designate) (read). No padrão Gru- 
po 3, uma ou três linhas codificadas read são permitidas 
entre sucessivas linhas codificadas por MH e a técnica é 
conhecida como codificação read modificada (MR, de Mo- 
dified read). No padrão Grupo 4, um numero maior de li- 
nhas codificadas read é permitido e o método é chamado 
codificação read modificada modificada (MMR, de Modified 


“ Lembre-se, com base na Seção 8.2.2, de que a notação indica o 
maior número inteiro menor que ou igual a x. 
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Modified read). Como observamos anteriormente, a 
codificação é bidimensional no sentido de que as infor- 
mações da linha anterior são utilizadas para codificar a 
linha atual. Transformadas bidimensionais fazem parte 
do processo. 


A Figura 8.14 mostra o processo básico de codifica- 
ção 2-D para uma única linha de varredura. Observe que 
os passos iniciais do procedimento são dedicados à loca- 
lização de vários importantes elementos de mudança: ay 4,, 
a, b, e b,. Um elemento de modificação é definido pelo 
padrão como um pixel cujo valor é diferente do pixel an- 
terior na mesma linha. O elemento de modificação mais 
importante é a, (o elemento de referência), que é defini- 
do para a posição de um elemento de modificação branco 
imaginário à esquerda do primeiro pixel de cada nova 
linha de codificação ou determinado a partir do modo de 
codificação anterior. Discutiremos os modos de codifica- 


Iniciar nova linha 
de codificação 


Posicionar ay antes 
do primeiro pixel 


t 


Detectar a, 


f 


Detectar bı 


hi 


Detectar b, 


Y 


b> a 
esquerda de 
a 


Sim AS Sim 


Detectar a 


Não 


t t 


, 
Codificação por Codificação por Codificação por 
modo horizontal modo vertical 


modo de passagem 
Y 7 5 


Posicionar Posicionar Posicionar 
ay sob by dy sobre ay a sobre a 


p 


Y 


Fim da 
Não inha? 


| Sim 


Fim da linha 
de codificação 


Figura 8.14 Procedimento de codificação read CCITT 2-D. A nota- 
ção indica o valor absoluto da distância entre os elementos de mu- 
dança a, e b.. 


ção no parágrafo a seguir. Depois de a, ser localizado, a, 
é identificado como a posição do próximo elemento de 
modificação à direita de a, na linha de codificação atual, 
a, como o próximo elemento de modificação à direita 
de a, na linha de codificação, b, como o elemento de 
modificação do valor oposto (em relação a a,) e à direita 
de a, na linha de referência (ou anterior) e b, como o pró- 
ximo elemento de modificação à direita de b, na linha de 
referência. Se nenhum desses elementos de mudança for 
detectado, eles são definidos para a posição de um pixel 
imaginário à direita do último pixel na linha apropriada. 
A Figura 8.15 apresenta duas ilustrações das relações ge- 
rais entre os vários elementos de mudança. 


Após a identificação do elemento de referência atual 
e dos elementos de mudança associados, dois testes sim- 
ples são realizados para selecionar um dentre os três mo- 
dos de codificação possíveis: modo de passagem, modo verti- 
cal ou modo horizontal. O teste inicial, que corresponde ao 
primeiro ponto de decisão no fluxograma da Figura 8.14, 
compara a posição de b, com a de a,. O segundo teste, que 
se refere ao segundo ponto de decisão na Figura 8.14, cal- 
cula a distância (em pixels) entre as posições de a, eb ea 
compara com 3. Dependendo do resultado desses testes, 
um dos três blocos de codificação esboçados na Figura 
8.14 é inserido e o procedimento de codificação apropria- 
do é executado. Um novo elemento de referência é defi- 
nido, de acordo com o fluxograma, em preparação para a 
próxima repetição de codificação. 

A Tabela 8.9 define os códigos específicos utilizados 
para cada um dos três modos de codificação possíveis. No 
modo de passagem, que especificamente exclui o caso no 
qual b, se posiciona diretamente acima de a,, só a palavra- 
-código do modo de passagem 0001 é necessária. Como 
mostra a Figura 8.15(a), esse modo identifica sequên- 
cias brancas ou pretas da linha de referência que não se 
sobrepõem às sequências brancas ou pretas da linha de 
codificação atual. No modo de codificação horizontal, as 
distâncias de a, a a, e de a, a a, devem ser codificadas de 
acordo com os códigos de terminação e de construção das 
tabelas A.1 e A.2 do Apêndice A e depois incluídas na 
palavra-código 001 do modo horizontal. Isso é indicado 
na Tabela 8.9 pela notação 001 + M(a,a,) + M(a,a,), em 
que 4,4, e aa, indicam as distâncias de a, aa ea aa, 
respectivamente. Por fim, no modo de codificação verti- 
cal, um de seis códigos especiais de tamanho variável é 
atribuído à distancia entre a, e b,. A Figura 8.15(b) ilustra 
os parâmetros envolvidos na codificação tanto do modo 
horizontal quanto vertical. A palavra-código do modo de 
extensão na parte inferior da Tabela 8.9 é utilizada para 
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Figura 8.15 Parâmetros de codificação CCITT do (a) modo de passagem e (b) dos modos horizontal e vertical. 


incluir um modo de codificação de fac-símile opcional. 
Por exemplo, o código 0000001111 é utilizado para ini- 
ciar um modo não comprimido de transmissão. 


= 
Exemplo 8.9 Exemplo de codificação CCITT no modo 
vertical. 


Apesar de a Figura 8.15(b) ser detalhada com os pa- 
râmetros de codificação de modo tanto horizontal quanto 
vertical (para facilitar a discussão anterior), o padrão re- 
presentado por pixels pretos e brancos é um caso de codifi- 
cação de modo vertical. Isto é, como b, se posiciona à direi- 
ta de a,, 0 primeiro teste (ou modo de passagem) na Figura 
8.14 falha. O segundo teste, que determina se o modo de 
codificação vertical ou horizontal foi ativado, indica que 
a codificação do modo vertical deve ser utilizada, uma vez 
que a distância de a, a b, é menor que 3. De acordo com 
a Tabela 8.9, a palavra-código apropriada é 000010, o que 
sugere que a, se posiciona dois pixels à esquerda de b,. Na 
preparação para a próxima iteração, a, é deslocado para a 
posição de a,. 

E 


Tabela 8.9 Tabela de código CCITT bidimensional. 


Modo Palavra-código 
Passagem 0001 
Horizontal 001 + M(a,a,) + Mla a) 
Vertical 
a, abaixo de b, 
a uma posição à direita de b, 011 
a, duas posições à direita de b, 000011 
a três posições à direita de b, 0000011 


a, uma posição à esquerda de b, 010 


a, duas posições à esquerda de b, 000010 
a, três posições à esquerda de b 0000010 


Extensão 0000001xxx 


= 
Exemplo 8.10 Exemplo de compressão CCITT. 


A Figura 8.1(a) a é uma digitalização de 300 dpi de 
uma página de livro de 7 x 9,25 polegadas exibida em uma 
escala de aproximadamente 1/3. Observe que aproximada- 
mente metade da página contém texto, cerca de 9% dela 
é ocupada por uma imagem em meio-tom e o restante é 
ocupado por espaços brancos. A Figura 8.16(b) apresenta 
uma área da página ampliada. Tenha em mente que estamos 
lidando com uma imagem binária; a ilusão de tons cinza foi 
criada pelo processo de meio-tom, descrito na Seção 4.5.4, 
utilizado na impressão. Se os pixels binários da imagem da 
Figura 8.16(a) forem armazenados em grupos de 8 pixels 
por byte, a imagem digitalizada de 1.952 x 2.697 bits, 
comumente chamada um documento, requer 658.068 bytes. 
Um arquivo PDF’ não comprimido do documento (criado 
no Photoshop) requer 663.445 bytes. A compressão CCITT 
Grupo 3 reduz o arquivo a 123.497 bytes — resultando em 
uma taxa de compressão C = 5,37; a compressão CCITT Gru- 
po 4 reduz o arquivo a 110.456 bytes, aumentando a taxa de 
compressão para aproximadamente 6. 

= 


8.2.6 Codificação baseada em símbolos 


Na codificação baseada em símbolos ou tokens, uma 
imagem é representada como uma coletânea de subima- 
gens de ocorrência frequente, chamadas símbolos”. Cada 
um desses símbolos é armazenado em um dicionário de 
símbolos e a imagem é codificada como um conjunto de 
trios {(x,,¥,,t,), (Xj Yy L), ... }, em que cada par (x, y,) es- 


* Não confunda o PDF utilizado aqui, que representa Portable Docu- 
ment Format, com o PDF utilizado em seções e capítulos anterio- 
res, significando função densidade de probabilidade. 


** Em relação às tabelas 8.3 e 8.4, a codificação baseada em símbo- 
los é utilizada na compressão JBIG2. 
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Uma das transformações utilizadas com mais fre- 
quência para a compressão de imagens é a transformada 
discreta de cosseno (DCT, de discrete cosine transform). Ela é 
obtida substituindo os seguintes kernels (iguais) nas equa- 
ções 8.2-10 e 8.2-11 


r(x, YALU) = s(x, YoU v) 


(2x+ Yur] 
2n i} 


as; 


= a(u)a(v) cos e+] 
2n 


(8.2-18) 
sendo 
i; para u=0 
atu) =4 "Z (82-18) 

| 

| , = 

= para w=1,2,....n-1 

Vn 


e, de forma similar para a(v). A Figura 8.23 mostra 
r(x, y, u, v) para o caso n = 4, O cálculo segue o mesmo 
formato como explicado na Figura 8.22, com a diferença 
de que os valores de r são números não inteiros. Na 
Figura 8.23, os valores de menor intensidade correspon- 
dem a maiores valores de r 


= 
Exemplo 8.13 Codificação por transformada de blocos 
com DFT, WHT e DCT. 
As figuras 8.24(a) a (c) mostram três aproximações 
da imagem monocromática 512 x 512 apresentada na Fi- 
gura 8.9(a). Essas imagens foram obtidas dividindo a imagem 


original em subimagens de tamanho 8 x 8, representando 
cada subimagem por meio da aplicação de uma das transfor- 
madas que acabamos de descrever (isto é, as transformadas 
DFT, WHT DCT), truncando 50% dos coeficientes resul- 
tantes e utilizando a transformada inversa dos arranjos dos 


coeficientes truncados, 
Em cada caso, os 32 coeficientes conservados foram 
selecionados com base na máxima magnitude. Observe 


scartados ti- 
e da imagem 
'ompanhada 
de algum erro quadrático médio, que pode ser visto nas 
imagens ajustadas de erro apresentadas nas figuras 8.24(d) 
a f. Os erros rms apresentaram intensidades 2,32; 1,78; e 
1,13, respectivamente. 


que, em todos os casos, os 32 coeficiente: 
veram pouco impacto visual sobre a qualid 
reconstruída, Sua eliminação, contudo, fo 


As pequenas diferenças no erro médio quadrático 
obtidas no processo de reconstrução observadas no exem- 
plo anterior são diretamente relacionadas às propriedades 
de compressão de energia ou informações das transfor- 
madas empregadas. De acordo com a Equação 8.2-11, 
uma subimagem x x 11 g(x, y) pode ser expressa como uma 
função de sua transformada 2-D T(u, v): 


are) 
gix, y) = XLT (u,v) s(x, y, u,v) (82-20) 


para x, y=0,1,2,. 
na Equação 8.2-20 depende somente dos índices x, y, u, 
ve não dos valores de g(x, y) ou T(u, v), 
siderar que ele define um conjunto de fu 

ns de base para a série definida pela Equação 8.2-20. 
pretação fica mais clara se a notação utilizada 
na Equação 8.2-20 é modificada para obter 


i= 1, Como o kernel inverso s(x, y, u, u) 


(8.2-21) 
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Figura 823 Funções de base discreta de cossenos para n = 4 
A origem de cada bloco se localiza no canto superior esquerdo. 


sn=1L,0, u,v) s(n—1,1, u,v) 


50,n—1u,v) | 


s(t—1, 11, v)| 


(8.2-22) 


Figura 8.16 Digitalização binária de uma página de livro: (a) redimensionada para mostrar o conteúdo geral da página; (b) redimensionada para 


mostrar os pixels binários utilizados no processo de dithering. 


pecifica a posição de um símbolo na imagem e o token t, é 
o endereço do símbolo ou subimagem no dicionário. Isto 
é, cada trio representa uma ocorrência de um símbolo do 
dicionário na imagem. Armazenar apenas uma única vez 
os símbolos repetidos pode comprimir significativamente 
as imagens — particularmente em aplicações de armazena- 
mento e acesso a documentos, em que os símbolos muitas 
vezes são mapas de bits (bitmaps) de caracteres repetidos.” 


Vejamos a imagem binária da Figura 8.17(a). Ela 
contém uma única palavra, banana, composta por três 
símbolos únicos: um b, três a e dois n. Considerando que 
o b seja o primeiro símbolo identificado no processo de 
codificação, seu bitmap 9 x 7 é armazenado na posição 0 


a b č 
Token |Símbolo Trio 
i HE (0,2,0) 
ELE (3,10,1) 
H E (3,18,2) 
cH int i en 1 | (3, 26, 1) 
(3, 34,2) 
» | EE (3,42, 1) 


Figura 8.17 (a) Um documento de dois níveis de cinza, (b) di- 
cionário de símbolos e (c) os trios utilizados para localizar os símbolos 
no documento. 


do dicionário de símbolos. Como mostra a Figura 8.17(b), 
o token que identifica o bitmap b é 0. Dessa forma, o pri- 
meiro trio da representação da imagem codificada [veja 
a Figura 8.17(c)] é (0, 2, 0) — indicando que o canto 
superior esquerdo (uma convenção arbitrária) do bitmap 
retangular representando o símbolo b deve ser posicio- 
nado na posição (0, 2) da imagem decodificada. Depois 
que os bitmaps para os símbolos a e n foram identificados 
e adicionados ao dicionário, o restante da imagem pode 
ser codificado com cinco trios adicionais. Se os seis trios 
necessários para localizar os símbolos na imagem, com os 
três bitmaps necessários para defini-los, forem menores 
que a imagem original, a compressão ocorre. No caso, a 
imagem inicial tem as seguintes dimensões: 9 x 51 x 1, 
ou 459 bits e, presumindo-se que cada trio seja composto 
por 3 bytes, a representação comprimida tem (6 x 3 x 
8)+[(9x7)+ (6 x 7) + (6 x 6)] ou 285 bits; a taxa de 
compressão resultante é C = 1,61. Para decodificar a re- 
presentação baseada em símbolos da Figura 8.17(c), basta 
ler os bitmaps dos símbolos especificados nos trios a partir 
do dicionário de símbolos e posicioná-los nas coordena- 
das espaciais especificadas em cada trio. 


A compressão baseada em símbolos foi proposta no 
início da década de 1970 [Ascher e Nagy (1974)], mas 


só recentemente ganhou aplicação prática. Avanços nos 
algoritmos de correspondência de símbolos (veja o Capí- 
tulo 12) e maiores velocidades de processamento da CPU 
dos computadores possibilitaram a rápida seleção de sím- 
bolos de dicionário e a localização de sua ocorrência na 
imagem. E, como muitos outros métodos de compressão, 
a decodificação baseada em símbolos é significativamente 
mais rápida do que a codificação. Por fim, observamos 
que tanto os bitmaps de símbolo armazenados no dicioná- 
rio quanto os trios utilizados para se referir a eles podem 
ser codificados para melhorar ainda mais o desempenho 
da compressão. Se — como na Figura 8.17 — somente as 
correspondências exatas dos símbolos forem permitidas, 
a compressão resultante é sem perda; se pequenas dife- 
renças forem permitidas, algum nível de erro de recons- 
trução estará presente. 


Compressão JBIG2 


O JBIG2 é um padrão internacional para compressão 
de imagens binárias. Ao segmentar uma imagem em regiões 
sobrepostas e/ou não sobrepostas de conteúdo de texto, 
meio-tom e genérico, são empregadas técnicas de compressão 
especificamente otimizadas para cada tipo de conteúdo: 


e As regiões de texto são compostas por caracteres ade- 
quados para uma abordagem de codificação ba- 
seada em símbolos. Normalmente, cada símbolo 
corresponderá a um bitmap de caractere — uma 
subimagem representando um caractere de texto. 
Em geral, há apenas um bitmap de caractere (ou su- 
bimagem) no dicionário de símbolos para cada ca- 
ractere em maiúscula e minúscula da fonte sendo 
utilizada. Por exemplo, haveria um bitmap “a” no 
dicionário, um bitmap “A”, um bitmap “b” e assim 
por diante. 


Na compressão JBIG2 com perda, muitas vezes 
chamada sem perda perceptiva ou sem perda visual, ne- 
gligenciamos as diferenças entre bitmaps de dicioná- 
rio (isto é, os bitmaps dos caracteres de referência ou 
templates de caractere) e ocorrências específicas dos 
caracteres correspondentes na imagem. Na com- 
pressão sem perda, as diferenças são armazenadas 
e utilizadas em conjunção com os trios que codifi- 
cam cada caractere (pelo decodificador) para produ- 
zir os bitmaps de imagem real. Todos os bitmaps são 
codificados aritmeticamente ou utilizando o MMR 
(veja a Seção 8.2.5); os trios utilizados para aces- 
sar entradas de dicionário são codificados aritme- 
ticamente ou utilizando a codificação de Huffman. 


e As regiões de meio-tom são similares às regiões de tex- 
to no sentido de serem compostas por padrões orga- 
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nizados em uma grade regular. Os símbolos arma- 
zenados no dicionário, contudo, não são bitmaps de 
caracteres, mas padrões periódicos que representam 
intensidades (por exemplo, de uma fotografia) e 
cujos pontos foram combinados para produzir ima- 
gens de dois níveis para a impressão. Esse processo 
é denomido dithering. 

e As regiões genéricas contêm informações que não são 
texto e também não são de meio-tom como traços 
em preto e branco (line art) e ruído e são compri- 
midas utilizando a codificação aritmética ou MMR. 


Como pode ser dito sobre muitos padrões de com- 
pressão de imagens, o JBIG2 define o comportamento do 
decodificador. Ele não define explicitamente um codifi- 
cador-padrão, mas é flexível o suficiente para permitir 
vários projetos de codificadores. Apesar de o projeto do 
codificador não ser especificado, ele continua sendo im- 
portante, por determinar o nível de compressão atingido. 
Afinal, o codificador deve segmentar a imagem em regiões, 
escolher os símbolos de meio-tom e texto armazenados 
nos dicionários e decidir quando esses símbolos são es- 
sencialmente os mesmos ou diferentes das ocorrências 
potenciais dos símbolos na imagem. O decodificador sim- 
plesmente utiliza essas informações para recriar a ima- 
gem original. 


Exemplo 8.11 Exemplo de compressão JBIG2. 


Vejamos novamente a imagem binária da Figura 
8.16(a). A Figura 8.18(a) mostra uma região reconstruída da 
imagem após uma codificação JBIG2 sem perda (por meio 
de um aplicativo de compressão de documentos disponível 
comercialmente). Trata-se de uma réplica exata da imagem 
original. Observe que os d no texto reconstruído variam li- 
geiramente, apesar do fato de terem sido gerados a partir 
da mesma entrada do dicionário. As diferenças entre esse 
d e os d da imagem foram utilizadas para refinar a saída do 
dicionário. O padrão define um algoritmo para realizar isso 


a b c 


saring va waew 


just described 


arp va vnw 


just described 


esulting coeffi esulting coeffi 
nt arrays. ntarrays. 
retained coeffi retained coeffi 


an we disreoar >n we disreoar 


Figura 8.18 Comparação de compressão JBIG2: (a) compressão e 
reconstrução sem perda; (b) sem perda perceptiva; e (c) a diferença 
ajustada entre as duas. 
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durante a decodificação dos bitmaps codificados do diciona- 
rio. Para esta análise, podemos considerar que ele adiciona 
a diferença entre um bitmap do dicionário e uma ocorrência 
específica do caractere correspondente na imagem ao bitmap 
lido do dicionário. 


A Figura 8.18(b) apresenta outra reconstrução da área 
em (a) depois da compressão JBIG2 sem perda perceptiva. 
Observe que os d nessa figura são idênticos. Eles foram dire- 
tamente copiados do dicionário de símbolos. A reconstrução 
é chamada “sem perda perceptiva” porque o texto é legível 
e a fonte é a mesma. As pequenas diferenças — mostradas 
na Figura 8.18(c) — entre os d da imagem original e o d do 
dicionário não são consideradas importantes por não afeta- 
rem a legibilidade. Lembre-se de que estamos lidando com 
imagens binárias, de forma que há apenas três intensidades 
possíveis na Figura 8.18(c). A intensidade 128 indica áreas 
nas quais não há diferença entre os pixels correspondentes 
das imagens das figuras 8.18(a) e (b); as intensidades O (pre- 
to) e 255 (branco) indicam pixels de intensidades opostas 
nas duas imagens — por exemplo, um pixel preto em uma 
imagem que é branco na outra e vice-versa. 

A compressão JBIG2 sem perda utilizada para gerar 
a Figura 8.18(a) reduz a imagem original PDF não compri- 
mida de 663.445 bytes para 32.705 bytes; a taxa de com- 
pressão é C = 20,3. A compressão JBIG2 sem perda percep- 
tiva reduz a imagem a 23.913 bytes, aumentando a taxa de 
compressão para cerca de 27,7. Essas compressões são 4 a 
5 vezes maiores que os resultados do CCITT Grupos 3 e 4 
do Exemplo 8.10. 

= 


8.2.7 Codificação de planos de bits 


As técnicas run-length e baseadas em símbolos apre- 
sentadas nas seções anteriores podem ser aplicadas em 
imagens com mais de duas intensidades pelo processa- 
mento individual de seus planos de bits. A técnica, cha- 
mada codificação de planos de bits, se baseia no conceito de 
decompor uma imagem de vários níveis (monocromática 
ou colorida) em uma série de imagens binárias (veja a Se- 
ção 3.2.4) e comprimir cada imagem binária por meio de 
vários métodos conhecidos de compressão binária. Nes- 
ta seção, descrevemos os dois métodos de decomposição 
mais populares.” 


As intensidades de uma imagem monocromática de 
m bits podem ser representadas na forma do polinômio 
de base 2 
Ge EO Pra PA Fae (8.2-8) 


m 


Com base nessa propriedade, um método simples 
de decompor a imagem em uma série de imagens biná- 


* Em relação às tabelas 8.3 e 8.4, a codificação de planos de bits é 
utilizada nos padrões de compressão JBIG1 e JPEG-2000. 


rias é separar os m coeficientes do polinômio em m planos 
de bits de 1 bit. Como observamos na Seção 3.2.4, o pla- 
no de bits de ordem mais baixa (o plano correspondente 
ao bit menos significativo) é gerado coletando os bits a, 
de cada pixel, enquanto o plano de bits de ordem mais 
alta contém os bits ou coeficientes a. Em geral, cada 
plano de bits é construído definindo seus pixels como 
equivalentes aos valores dos bits apropriados ou coefi- 
cientes polinomiais de cada pixel da imagem original. 
A desvantagem inerente desse método de decomposição 
é que pequenas alterações na intensidade podem ter um 
impacto significativo sobre a complexidade dos planos 
de bits. Se um pixel de intensidade 127 (01111111) for 
adjacente a um pixel de intensidade 128 (10000000), 
por exemplo, cada plano de bits conterá uma transição 
correspondente de O para 1 (ou de 1 para 0). Por exem- 
plo, como os bits mais significativos dos códigos binários 
para 127 e 128 são diferentes, o plano de bits mais alto 
conterá um pixel de valor zero ao lado de um pixel de 
valor 1, criando uma transição de O para 1 (ou 1 para 0) 
nesse ponto. 


Uma abordagem alternativa de decomposição (que 
reduz o efeito de pequenas variações de intensidade) é 
representar primeiro a imagem por um código Gray de m 
bits. O código Gray de m bits 9,,... 9,9, Jy que corres- 
ponde ao polinômio na Equação 8.2-8, pode ser calcula- 
do a partir de 


9,=4,04,, O<i<m-—?2 


Grit = An 


No caso, €& indica a operação exclusiva OR. Esse có- 
digo apresenta a propriedade única de que palavras-código 
sucessivas diferem em apenas um bit de posição. Dessa 
forma, pequenas variações de intensidade têm menos 
chances de afetar todos os m planos de bits. Por exem- 
plo, quando os níveis de intensidade 127 e 128 forem 
adjacentes, só o plano de bits de ordem mais alta (o séti- 
mo plano de bit) conterá uma transição de O para 1 por- 
que os códigos Gray que correspondem a 127 e 128 são 
01000000 e 11000000, respectivamente. 


(8.2-9) 


= 
Exemplo 8.12 Codificação em planos de bits. 


As figuras 8.19 e 8.20 mostram os oito planos de bits 
binários e os codificados utilizando código Gray para a ima- 
gem monocromática de 8 bits da fotografia da criança da 
Figura 8.19(a). Observe que os planos de bits de ordem mais 
alta são muito menos complexos do que seus equivalentes 
de ordem mais baixa. Isto é, eles contêm grandes áreas uni- 
formes com menos detalhes significativos, importantes ou 


Figura 8.19 (a) Uma imagem monocromática de 256 bits. (b) a (h) Os 
quatro planos de bits mais significativos relativos ao código binário e 
ao código Gray para a imagem apresentada em (a). 


aleatórios. Além disso, os planos de bits relativos ao código 
Gray são menos complexos que os planos de bits binários 
correspondentes. As duas observações são observadas nos 
resultados da codificação JBIG2 da Tabela 8.10. Observe, 
por exemplo, que os resultados a, e g, são significativamen- 
te maiores que as compressões a, e g, € que tanto g, quanto 
9, São menores que seus equivalentes a, e a,. Essa tendên- 
cia se mantém por toda a tabela, com a única exceção de 
a,. A codificação Gray proporciona uma vantagem de com- 
pressão média de aproximadamente 1,06:1. Combinados, 
os arquivos codificados utilizando código Gray comprimem 
a imagem monocromática em 678.676/475.964 ou 1,43:1; 
os arquivos não codificados pelo código Gray comprimem a 
imagem em 678,676/503.916 ou 1,35:1. 

Por fim, notamos que os dois bits menos significativos 
da Figura 8.20 apresentam pouca estrutura evidente. Como 
isso é típico da maioria das imagens monocromáticas de 8 
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do 80 


Figura 8.20 (a) a (h) Os quatro planos de bits menos significativos 
relativos ao código binário (coluna da esquerda) e ao código Gray (co- 
luna da direita) para a imagem da Figura 8.19(a). 


Tabela 8.10 Resultados da codificação JBIG2 sem perda para os 
planos de bits binários e os planos de bits relativos 
ao código Gray da Figura 8.19(a). Esses resultados 
incluem o cabeçalho de cada representação PDF do 


plano de bits. 
Código binário | Código Gray | Taxa de com- 
Coeficiente m | (bits do PDF) | (bits do PDF) pressão 
7 6.999 6.999 1,00 
6 12.791 11.024 1,16 
5 40.104 36.914 1,09 
4 59.911 41.415 1,18 
3 78.915 67.787 1,16 
2 101.535 92.630 1,10 
1 107.909 105.286 1,03 
0 99.753 107.909 0,92 
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bits, a codificação de planos de bits costuma se restringir a 
imagens de 6 bits/pixel ou menos. JBIGI, o predecessor de 
JBIG2, impõe essa restrição. 

E 


8.2.8 Codificação por transformada em blocos 


Nesta seção, analisamos uma técnica de compres- 
são que divide uma imagem em pequenos blocos não 
sobrepostos de mesmo tamanho (por exemplo, 8 x 8) e 
processa os blocos independentemente utilizando uma 
transformada 2-D.” Na codificação por transformada em 
blocos, uma transformada linear e reversível (como a 
transformada de Fourier) é utilizada para mapear cada 
bloco ou subimagem em um conjunto de coeficientes da 
transformada, que são, então, quantizados e codifica- 
dos. Para a maioria das imagens, um número significa- 
tivo dos coeficientes tem pequenas magnitudes e pode 
ser grosseiramente quantizado (ou totalmente descar- 
tado) com pouca distorção de imagem. Uma variedade 
de transformadas, incluindo a transformada discreta de 
Fourier (DFT) do Capítulo 4, pode ser utilizada para 
transformar os dados da imagem. 


A Figura 8.21 mostra um sistema típico de codificação 
por transformada em blocos. O decodificador implemen- 
ta a sequência inversa de passos (com exceção da função 
de quantização) do codificador, que realiza quatro opera- 
ções relativamente simples: decomposição de subimagens, 
transformada, quantização e codificação. Uma imagem de 
entrada M x N é primeiro subdividida em subimagens de 
tamanho n x n, que, por sua vez, são transformadas para 
gerar arranjos de MN/n? subimagens transformadas, cada 
uma de tamanho n x n.º A meta do processo de transfor- 
mação é descorrelacionar os pixels de cada subimagem ou 
comprimir o máximo possível a informações em um nú- 
mero menor de coeficientes de transformada. O estágio de 


quantização elimina ou quantiza seletivamente, de modo 
mais grosseiro, os coeficientes que carregam menos infor- 
mação (vários métodos são discutidos adiante nesta seção). 
Esses coeficientes têm o menor impacto sobre a qualidade 
da subimagem reconstruída. O processo termina pela co- 
dificação (normalmente utilizando um código de tamanho 
variável) dos coeficientes quantizados. Qualquer um ou 
todos os passos de codificação por transformada podem ser 
adaptados para o conteúdo local da imagem, processo cha- 
mado de codificação adaptativa por transformada, ou podem 
ser fixos para todas as subimagens, processo denominado 
codificação não adaptativa por transformada. 


Seleção da transformada 


Sistemas de codificação por transformada de blo- 
cos baseados em uma variedade de transformadas discretas 
2-D foram construídos e/ou extensivamente estudados. 
A escolha de determinada transformada para uma dada 
aplicação depende da quantidade de erro de reconstrução 
que pode ser tolerada e dos recursos computacionais dis- 
poníveis. A compressão é alcançada durante a quantiza- 
ção dos coeficientes transformados (não durante o passo 
da transformação). 


No que se refere à discussão na Seção 2.6.7, con- 
sidere uma subimagem g(x, y) de tamanho n x n cuja 
transformada discreta direta, T(u, v), pode ser expressa 
em termos da relação geral” 


n—l nl 


T(u,v)= X X g(x, y)r(X, y, u, v) 


x=0 y=0 


(8.2-10) 


para u, v = 0, 1, 2, ..., n — 1. Dada T(u, v), g(x, y) pode 
ser obtido de forma similar utilizando a forma geral da 
transformada inversa discreta 


n-i nl 


IX, Y)= VL X T(u, v) s(x, y, u, v) 


u=0 v=0 


(8.2-11) 


a Imagem de Construir E 

a nen Transformada Quantizador Codificador Imagem 

; direta de símbolos comprimida 
MXN) subimagens 
ia Fundir 
b Imagem Decodificador Transformada Imagens 
ee — , —+ : > nxn s oi 
comprimida de símbolos inversa ; descomprimida 
subimagens 


Figura 8.21 


Sistema de codificação por transformada de blocos: (a) codificador; (b) decodificador. 


Em relação às tabelas 8.3 e 8.4, a codificação por transformada em blocos é utilizada em: JPEG, M-JPEG, MPEG-1,2,4, H.261, H.262, 


H.263 e H.264, DV e HDV, VC-1 e outros padrões de compressão. 


* Nesta seção, restringimos nossa atenção a subimagens quadradas (as mais comumente utilizadas). Presume-se que a imagem de entrada 
seja preenchida, se necessário, de forma que tanto M quanto N sejam múltiplos de n. 


“ Utilizamos g(x, y) para diferenciar uma subimagem da imagem de entrada f(x, y). Dessa forma, os limites do somatório passam a ser n em 


vez de MeN. 


para x, y = 0, 1l, 2, ..., n — 1. Nessas equações, r(x, y, 
u, v) e s(x, y, u, v) são chamados kernels da transforma- 
da direta e inversa, respectivamente. Por razões que serão 
esclarecidas mais à frente nesta seção, eles também são 
denominados funções de base ou imagens de base. As T(u, 
v) para u, v=0,1,2,...,n — l na Equação 8.2-10 são 
conhecidas como coeficientes da transformada; elas podem 
ser vistas como coeficientes de expansão — veja a Seção 
7.2.1 — de uma expansão em série de g(x, y) em relação 
as funções de base s(x, y, u, v). 

Como explicamos na Seção 2.6.7, o kernel na Equa- 
ção 8.2-10 é separável se 


r(x, y, u, v) = r (x, u) r (y, v) (8.2-12) 


Além disso, o kernel é simétrico se r, for funcional- 
mente igual a r,. Nesse caso, a Equação 8.2-12 pode ser 
expressa na forma 


r(x, y, u, v) =r (x, u) r y, v) (8.2-13) 


Comentários idênticos se aplicam ao kernel inverso 
se r(x, y, u, v) for substituído por s(x, y, u, v) nas equações 
8.2-12 e 8.2-13. Não é difícil demonstrar que uma trans- 
formada 2-D com um kernel separável pode ser calcula- 
da utilizando passes de linha-coluna ou coluna-linha da 
transformada 1-D correspondente, como explicamos na 
Seção 4.11.1. 

Os kernels de transformação direta e inversa nas 
equações 8.2-10 e 8.2-11 determinam o tipo de transfor- 
mada calculada, a complexidade computacional geral e o 
erro de reconstrução do sistema de codificação por trans- 
formada de blocos no qual eles são empregados. O par de 
kernels de transformação mais conhecido é 


Hopa wae Pe (8.2-14) 


l j c+uy)/n 
s(x, y u,v) = — entanto! (8.2-15) 


em que j= V-1. Estes são os kernels de transforma- 
ção definidos nas equações 2.6-34 e 2.6-35 do Capítulo 2 
com M = N = n. Substituir esses kernels nas equações 
8.2-10 e 8.2-11 resulta em uma versão simplificada do 
par de transformadas discretas de Fourier apresentado na 
Seção 4.5.5. 


Uma transformação computacionalmente mais sim- 
ples e também útil na codificação de transformada, cha- 
mada transformada de Walsh-Hadamard (WHT, do inglês, 
Walsh-Hadamard transform), é deduzida a partir dos kernels 
funcionalmente idênticos” 


* Para calcular a WHT de uma imagem de entrada N x N f(x, y) em 
vez de uma subimagem, substitua n por N na Equação 8.2-16. 
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m-l 
l = |b; (x)p;(u)+b,(y)p;(v)| 
r(x, Y,U,V) = 8(X,y,u,v) = =(—1)= 
n 


(8.2-16) 


sendo n = 2”. O somatório do exponencial dessa ex- 
pressão é realizado em aritmética modular 2 e b,(z) é o 
k-ésimo bit (da direita para a esquerda) na representação 
binária de z. Sem = 3 ez = 6 (110 em binários), por 
exemplo, b (z) = 0, b (27) = 1 e b,(z) = 1. Os p(u) na 
Equação 8.2-16 são calculados utilizando: 


P (u) = b,(u) +b, (u) (8.2-17) 


na qual as somas, como observamos anteriormente, são 
realizadas em aritmética módulo 2. Expressões similares 
se aplicam a P (v). 

Diferentemente dos kernels da DFT, que são somas 
de senos e cossenos (veja as equações 8.2-14 e 8.2-15), 
os kernels de Walsh-Hadamard consistem em alternar osl 
positivos e negativos dispostos em um padrão de tabulei- 
ro de xadrez. A Figura 8.22 mostra o kernel para n = 4. 
Cada bloco consiste em 4 x 4= 16 elementos (subquadra- 
dos). O branco indica +1 e o preto indica —1. Para obter o 
bloco do canto superior esquerdo, fazemos que u = v = 0 
e plotamos os valores de r(x, y, 0, 0) para x, y = 0, 1, 2, 3. 
Todos os valores nesse caso são +1. O segundo bloco na 
linha superior é uma plotagem de valores de r(x, y, 0, 1) 
para x, y = 0, 1, 2, 3 e assim por diante. Como já observa- 
mos, a importância da transformada de Walsh-Hadamard 
reside em sua simplicidade de implementação — todos os 
valores de kernel são +1 ou -1. 


E 
E 
m, 
= 


Figura 8.22 Funções de base de Walsh-Hadamard para n = 4. 
A origem de cada bloco esta no canto superior esquerdo. 


a N 


=== 
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Uma das transformações utilizadas com mais fre- 
quência para a compressão de imagens é a transformada 
discreta de cosseno (DCT, de discrete cosine transform). Ela é 
obtida substituindo os seguintes kernels (iguais) nas equa- 
ções 8.2-10 e 8.2-11.º 


1(X,Y,U,V) = 8(X,Y,U,v) 


= a(uja(v) cos Cadi cos = Dem 
2n 2n 
(8.2-18) 
sendo 
fe para u=0 
ans" (8.2-18) 


2 
E para u=1,2,...,n—1 
n 


e, de forma similar para a(v). A Figura 8.23 mostra 
r(x, y, u, v) para o caso n = 4. O cálculo segue o mesmo 
formato como explicado na Figura 8.22, com a diferença 
de que os valores de r são números não inteiros. Na 
Figura 8.23, os valores de menor intensidade correspon- 
dem a maiores valores de r. 


= 
Exemplo 8.13 Codificação por transformada de blocos 
com DFT, WHT e DCT. 
As figuras 8.24(a) a (c) mostram três aproximações 


da imagem monocromática 512 x 512 apresentada na Fi- 
gura 8.9(a). Essas imagens foram obtidas dividindo a imagem 


Figura 8.223 Funções de base discreta de cossenos para n = 4. 
A origem de cada bloco se localiza no canto superior esquerdo. 


* Para calcular a DCT de uma imagem de entrada Nx Nem vez de uma 
subimagem f(x, y), substitua n por N nas equações 8.2-18 e 8.2-19. 


original em subimagens de tamanho 8 x 8, representando 
cada subimagem por meio da aplicação de uma das transfor- 
madas que acabamos de descrever (isto é, as transformadas 
DFT, WHT ou DCT), truncando 50% dos coeficientes resul- 
tantes e utilizando a transformada inversa dos arranjos dos 
coeficientes truncados. 


Em cada caso, os 32 coeficientes conservados foram 
selecionados com base na máxima magnitude. Observe 
que, em todos os casos, os 32 coeficientes descartados ti- 
veram pouco impacto visual sobre a qualidade da imagem 
reconstruída. Sua eliminação, contudo, foi acompanhada 
de algum erro quadrático médio, que pode ser visto nas 
imagens ajustadas de erro apresentadas nas figuras 8.24(d) 
a f. Os erros rms apresentaram intensidades 2,32; 1,78; e 
1,13, respectivamente. 

= 


As pequenas diferenças no erro médio quadrático 
obtidas no processo de reconstrução observadas no exem- 
plo anterior são diretamente relacionadas às propriedades 
de compressão de energia ou informações das transfor- 
madas empregadas. De acordo com a Equação 8.2-11, 
uma subimagem n x n g(x, y) pode ser expressa como uma 
função de sua transformada 2-D T(u, v): 


n—1 nl 


Me y) = X LT(u,v) s(x, y, u, v) 


u=0 v=0 


(8.2-20) 


para x, y=0, 1,2, ...,n— 1. Como o kernel inverso s(x, y, u, v) 
na Equação 8.2-20 depende somente dos índices x, y, u, 
v e não dos valores de g(x, y) ou T(u, v), é possível con- 
siderar que ele define um conjunto de funções de base ou 
imagens de base para a série definida pela Equação 8.2-20. 
Essa interpretação fica mais clara se a notação utilizada 
na Equação 8.2-20 é modificada para obter 


nn 


G=DLDLrT(u,v)s 


u=0 v=0 


(8.221) 


uv 


em que G é uma matriz n x n contendo os pixels de 
g(x, y) e 


S A pm 
i s(0,0,u,U) s(0,1,u, v) s(0,n—1,u,v) 
s(1,0,u,0) f : 
s(n—-1,0,u,v) s(n—1,1,u, v) s(a—1,n—1,u, v) 


(8.2-22) 


, , , 


Figura 8.24 
de erro correspondentes ajustadas. 


Então, G, a matriz contendo os pixels da subima- 
gem de entrada, é explicitamente definida como a com- 
binação linear de nº matrizes de tamanho n x n; isto é, a 
S para u, v = 0, 1, 2, ..., n — 1 na Equação 8.2-22. Essas 
matrizes na verdade são as imagens de base (ou funções) da 
expansão em série na Equação 8.2-20; as T(u, v) associadas 
são os coeficientes de expansão. As figuras 8.22 e 8.23 
ilustram em gráficos as imagens de base da WHT e 
DCT para o caso de n = 4. 


Se agora definirmos uma função de mascaramento do 
coeficiente da transformada 


0 se T(u,v) satisfaz um critério de 


x(u,v)= truncamento específico 
1 caso contrário (8.2-23) 
para u, v =0, 1, 2, ..., n- l, uma aproximação de G pode 
ser obtida a partir da expansão truncada 
= nl n- 
G= LV x(u,v)T(u, v)S,,, (8.2-24) 
u=0 v=0 


em que é construida para eliminar imagens de base que 
fazem as menores contribuições para a soma total da 
Equação 8.2-21. Dessa forma, o erro quadrático médio 
entre a subimagem G e a aproximação G é 
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Aproximações da Figura 8.9(a) utilizando a transformada (a) de Fourier, (b) de Walsh-Hadamard e (c) de cosseno. (d) a (f) imagens 


A Iê 
eu=E(l6-6I] 
n—l n- n-l n- 2 
= E| UT (u,v)8,, — DL x(u, v)T(u, v)S,, 
u=0 v=0 u=0 v=0 
nl nd 2 
= Bye T(u,v)S,,,[1—x(u,v)| 
n—l n- 
= X X Orun l1 Xl) (8.2-25) 


em que IG — êl] é a norma da matriz (6-6) e ii éa 
variância do coeficiente na posição (u, v) da transforma- 
da. A simplificação final se baseia na natureza ortonormal 
das imagens de base e na premissa de que os pixels de G 
são gerados por um processo aleatório com média zero e 
covariância conhecida. O erro médio quadrático total de 
aproximação, dessa forma, é a soma das variâncias dos 
coeficientes descartados da transformada; isto é, os coefi- 
cientes para os quais x(u, v) = 0, de forma que [1 — x(u, v)] 
na Equação 8.2-25 seja 1. As transformações que redis- 
tribuem ou comprimem a maior parte das informações 
no menor número de coeficientes proporcionam as me- 
lhores aproximações de subimagem e, em consequência, 
os menores erros de reconstrução. Por fim, com base nas 
premissas que levaram à Equação 8.2-25, o erro médio 
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quadrático das subimagens MN/nº de uma imagem M x N 
é idêntico. Dessa forma, o erro médio quadrático (sendo 
uma medida do erro médio) da imagem M x N equivale ao 
erro médio quadrático de uma única subimagem. 


O exemplo anterior mostrou que a capacidade de 
compressão de informações da DCT é superior à DFT e 
WHT." Apesar de essa condição normalmente se manter 
para a maioria das imagens, a transformada de Karhunen- 
-Loéve ou KLT (veja o Capítulo 11), e não a DCT, é a trans- 
formada ótima no sentido de compressão de informações. 
Isso se deve ao fato de a KLT minimizar o erro médio 
quadrático na Equação 8.2-25 para qualquer imagem de 
entrada e qualquer número de coeficientes conservados 
[Kramer e Mathews (1956)]”. No entanto, como a KLT 
depende de dados, obter as imagens de base da KLT para 
cada subimagem, em geral, não é uma tarefa computa- 
cionalmente trivial. Por essa razão, a KLT é pouco utili- 
zada na prática para a compressão de imagens. Em vez 
disso, uma transformada, como DFT, WHT ou DCT, cujas 
imagens de base são fixas (independentes da entrada), 
costumam ser utilizadas. Das possíveis transformadas 
independentes de saída, as transformadas não senoidais 
(como a transformada WHT) são as de implementação 
mais simples. As transformadas senoidais (como a DFT 
ou a DCT) são as que mais se aproximam da capacidade 
de compressão de informações da KLT ótima. 


Dessa forma, a maioria dos sistemas de codificação 
por transformada se baseia na DCT, que proporciona o 
melhor custo-benefício entre a capacidade de compressão 
de informações e a complexidade computacional. Com 
efeito, as propriedades da DCT demonstraram apresen- 
tar um valor prático tão satisfatório que a DCT se tornou 
um padrão internacional para sistemas de codificação por 
transformadas. Em comparação com outras transforma- 
das independentes da entrada, ela tem a vantagem de ser 
implementada em um único circuito integrado, compri- 
mindo a maior parte das informações no menor número 
de coeficientes” (para a maioria das imagens) e minimi- 
zar a aparência de blocos, chamada artefato de bloco, que 


“ No Exemplo 8.13, 50% dos coeficientes de uma imagem codifi- 
cada por transformada de blocos DFT, WHT e DCT foram descar- 
tados (utilizando blocos 8 x 8). Após a decodificação, o resultado 
baseado em DCT apresentou o menor erro rms, indicando que, 
em relação ao erro rms, a menor quantidade de informações foi 
descartada. 


Uma condição adicional para a qualidade ser ótima é que a fun- 
ção de mascaramento da Equação 8.2-23 seleciona os coeficien- 
tes de variância máxima da KLT. 


“ Ahmed et al. (1974) foram os primeiros a notar que as imagens 
de base da KLT de uma fonte markoviana de primeira ordem de 
imagens parecem bastante com as imagens de base DCT. À me- 
dida que a correlação entre pixels adjacentes se aproxima de 1, 
as imagens de base dependentes da entrada da KLT tornam-se 
idênticas às imagens de base independentes da entrada da DCT 
[Clarke (1985)]. 
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Figura 8.25 A periodicidade implícita na (a) DFT e (b) DCT 1-D. 
resulta quando as fronteiras entre as subimagens se tor- 
nam visíveis. Essa última propriedade é particularmente 
importante em comparações com outras transformadas 
senoidais. Como mostra a Figura 8.25(a), a periodicidade 
implícita de n pontos (veja a Seção 4.6.3) da DFT leva à 
descontinuidade de fronteira que resulta em um conteú- 
do substancial de alta frequência da transformada. Quan- 
do os coeficientes da transformada DFT são truncados ou 
quantizados, o fenômeno de Gibbs” faz que os pontos 
da fronteira assumam valores errôneos, que aparecem na 
imagem na forma de artefatos de bloco. Isto é, as fron- 
teiras entre subimagens adjacentes passam a ser visíveis 
porque os pixels da fronteira das subimagens assumem os 
valores médios das descontinuidades formadas nos pon- 
tos de fronteira [veja a Figura 8.25(a)]. A DCT da Figura 
8.25(b) reduz esse efeito porque sua periodicidade impli- 
cita de 2n pontos não produz inerentemente as desconti- 
nuidades de fronteira. 


Seleção do tamanho da subimagem 


Outro fator significativo que afeta o erro da codifi- 
cação por transformada e a complexidade computacional 
é o tamanho da subimagem. Na maioria das aplicações, 
as imagens são subdivididas de forma que a correlação 
(redundância) entre subimagens adjacentes seja reduzida 
a um nível aceitável e de forma que n seja uma potência 
inteira de 2, em que, como anteriormente, n é dimensão 
da subimagem. Essa última condição simplifica o cálculo das 
transformadas da subimagem (veja o método de dobra- 


“Esse fenômeno, descrito na maioria dos textos de engenharia elé- 
trica sobre análise de circuitos, ocorre porque a transformada de 
Fourier falha em convergir uniformemente nas descontinuida- 
des. Nas descontinuidades, as expansões de Fourier assumem os 
valores médios. 


mentos sucessivos na base 2 discutido na Seção 4.11.3). 
Em geral, tanto o nível de compressão quanto a comple- 
xidade computacional aumentam à medida que o tamanho 
da subimagem aumenta. Os tamanhos mais populares de 
subimagens são 8 x 8e 16 x 16. 


= 
Exemplo 8.14 Efeitos do tamanho da subimagem sobre 
a codificação por transformada. 


A Figura 8.26 ilustra, em forma de gráfico, o impacto 
do tamanho das subimagens no erro de reconstrução da codi- 
ficação por transformada. Os dados foram obtidos dividindo 
a imagem monocromática da Figura 8.9(a) em subimagens 
de tamanho n x n, para n = 2, 4, 8, 16,..., 256, 512, 
pelo cálculo da transformada de cada subimagem e do trun- 
camento de 75% dos coeficientes resultantes, isso seguido da 
aplicação da transformada inversa dos coeficientes truncados. 
Observe que as curvas de Hadamard e do cosseno se achatam 
à medida que o tamanho das subimagens passa a ser maior 
que 8 x 8, ao passo que o erro de reconstrução de Fourier 
diminui mais rapidamente nessa região. Extrapolação dessas 
curvas para valores maiores de n sugere que o erro de re- 
construção de Fourier cruzará a curva Walsh-Hadamard 
e convergira para o resultado do cosseno. Esse resultado está 
de acordo com as conclusões teóricas e experimentais regis- 
tradas por Netravali e Limb (1980) e por Pratt (1991) para 
uma fonte markoviana bidimensional de imagens. 


Todasastrêscurvasse cruzam quando subimagens2 x 2 
são utilizadas. Nesse caso, somente um dos quatro coefi- 
cientes (25%) de cada matriz transformada foi retido. O 
coeficiente em todos os casos foi o componente DC, de 
forma que a transformada inversa simplesmente substi- 
tuía os quatro pixels da subimagem por sua média (veja a 
Equação 4.6-21). Essa condição se evidencia na Figura 8.27(b), 
que mostra uma porção ampliada do resultado 2 x 2 da 
DCT. Observe que o artefato de bloco que predomina nesse 
resultado diminui à medida que o tamanho da subimagem 
aumenta para 4 x 4 e 8 x 8 nas figuras 8.27(c) e (d). A 
Figura 8.27(a) mostra uma área ampliada da imagem origi- 
nal como referência. 
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Figura 8.26 Erro de reconstrução versus tamanho da subimagem. 
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Figura 8.27 | Aproximações da Figura 8.27(a) utilizando 25% dos coefi- 
cientes DCT e (b) subimagens 2 x 2, (c) subimagens 4 x 4 e (d) subima- 
gens 8 x 8. A imagem original (a) é uma área ampliada da Figura 8.9(a). 


Alocação de bits 


O erro de reconstrução associado à expansão em sé- 
rie truncada da Equação 8.2-24 é uma função do número 
e da importância relativa dos coeficientes da transforma- 
da que são descartados, assim como da precisão utilizada 
para representar os coeficientes conservados. Na maioria 
dos sistemas de codificação por transformada, os coefi- 
cientes conservados são selecionados (isto é, a função de 
amostragem da Equação 8.2-23 é construída) com base 
na variância máxima, chamada codificação por zonas, ou 
com base na magnitude máxima, denominada codificação 
por limiarização. O processo geral de truncamento, quan- 
tização e codificação dos coeficientes de uma subimagem 
transformada é comumente chamado alocação de bits. 


E 
Exemplo 8.15 Alocação de bits. 


As figuras 8.28(a) e (c) mostram duas aproximações 
da Figura 8.9(a), na qual 87,5% dos coeficientes DCT de 
cada subimagem 8 x 8 foram descartados. O primeiro re- 
sultado foi obtido por meio da codificação por limiarização 
guardando-se os oito maiores coeficientes da transformada 
e a segunda imagem foi gerada utilizando-se a abordagem 
de codificação por zonas. Nesse último caso, cada coeficien- 
te DCT foi considerado uma variável aleatória cuja distri- 
buição poderia ser calculada sobre um conjunto de todas as 
subimagens transformadas. As oito distribuições de maior 
variância (12,5% dos 64 coeficientes na subimagem trans- 
formada de 8 x 8) foram localizados e utilizados para deter- 
minar as coordenadas, u e v, dos coeficientes, T(u, v), que 
foram conservados em todas as subimagens. Observe que a 
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Aproximações da Figura 8.9(a) utilizando 12,5% dos 


Figura 8.28 
coeficientes DCT 8 x 8: (a) e (b) resultados da codificação por limia- 
rização; (c) e (d) resultados da codificação por zonas. As imagens de 
diferença foram ajustadas por um fator 4. 


imagem diferença da codificação por limiarização da Figura 
8.28(b) contém menos erro do que o resultado da codifi- 
cação por zonas da Figura 8.28(d). As duas imagens foram 
ajustadas para que os erros fossem mais visíveis. Os erros 
rms correspondentes apresentaram intensidades 4,5 e 6,5, 
respectivamente. 

= 


Implementação da codificação por zonas: a codificação 
por zonas se baseia no conceito da teoria da informação que 
vê a informação como incerta. Dessa forma, os coeficien- 
tes da transformada com variância máxima carregam a 
maior parte da informação da imagem e devem ser con- 
servados no processo de codificação. As variâncias em si 
podem ser calculadas diretamente a partir do conjunto de 
MN/n’ matrizes de subimagens transformadas, como no 
exemplo anterior, ou baseadas em um modelo presumido 
de imagens (digamos, uma função de autocorrelação de 
Markov). De qualquer forma, o processo de amostragem 
zonal pode ser visto, de acordo com a Equação 8.2-24, 
como a multiplicação de cada T(u, v) pelo elemento cor- 
respondente na máscara de zona, que é construída atri- 
buindo 1 às posições de máxima variância e O a todas as 
outras posições. Os coeficientes de máxima variância são 
normalmente posicionados em torno da origem de uma 
transformada de imagem, resultando em uma típica más- 
cara de zonas como mostrada na Figura 8.29(a). 


Os coeficientes conservados durante o processo de 
amostragem por zonas devem ser quantizados e codifica- 
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Figura 8.29 Casos típicos de (a) mascara de zonas, (b) alocação de 
bits por zona, (c) máscara de limiarização e (d) sequência de orde- 
nação de coeficientes limiarizados. As áreas sombreadas indicam os 
coeficientes retidos. 


dos, de forma que as máscaras de zona algumas vezes são 
representadas mostrando o número de bits utilizados para 
codificar cada coeficiente [Figura 8.29(b)]. Na maioria dos 
casos, aos coeficientes são alocados o mesmo número 
de bits ou determinado número de bits é distribuído de 
modo desigual entre eles. No primeiro caso, os coeficien- 
tes geralmente são normalizados por seu desvio padrão 
e quantizados uniformemente. No segundo caso, um 
quantizador, como um quantizador ótimo de Lloyd-Max 
(veja os quantizadores ótimos na Seção 8.2.9), é projeta- 
do para cada coeficiente. Para construir os quantizadores 
necessários, o coeficiente zero ou DC normalmente é mo- 
delado por uma função densidade de Rayleigh, ao passo 
que os outros coeficientes são modelados pela densidade 
gaussiana ou laplaciana.” O número de níveis de quanti- 
zação (e, dessa forma, o número de bits) alocados a cada 
quantizador é proporcional a log, Ortua . Dessa forma, aos 
coeficientes conservados na Equação 8.2-24 — que 
(no contexto da discussão atual) são selecionados com 


* 


Como cada coeficiente é uma combinação linear dos pixels em 
sua subimagem (veja a Equação 8.2-10), o teorema de limite cen- 
tral sugere que, à medida que o tamanho da subimagem aumen- 
ta, os coeficientes tendem a se tornar gaussianos. Esse resultado, 
contudo, não se aplica ao coeficiente DC porque imagens não 
negativas sempre têm coeficientes DC positivos. 


base na variância máxima — são atribuídos bits propor- 
cionais ao logaritmo das variâncias de coeficiente. 

Implementação da codificação por limiarização: a codifi- 
cação por zonas costuma ser implementada por meio da 
utilização de uma única máscara fixa para todas as subi- 
magens. Já a codificação por limiarização é inerentemente 
adaptativa no sentido de que a posição dos coeficientes 
da transformada, conservados em cada subimagem, va- 
ria de uma subimagem à outra. De fato, a codificação 
por limiarização é a abordagem adaptativa de codifica- 
ção por transformada mais frequentemente utilizada na 
prática em virtude de sua simplicidade computacional. O 
conceito subjacente é que, para cada subimagem, os coe- 
ficientes da transformada de maior magnitude fazem a 
contribuição mais significativa à qualidade da subimagem 
reconstruída, como demonstramos no último exemplo. 
Como as posições dos coeficientes máximos variam de 
uma subimagem à outra, os elementos de X (u, v)T(u, v) 
são normalmente reordenados (de forma predefinida) 
para formar uma sequência com codificação run-length 
1-D. A Figura 8.29(c) mostra uma típica máscara de limia- 
rização para uma subimagem de uma imagem hipotética. 
Essa máscara proporciona uma forma prática de visualizar 
o processo de codificação por limiarização para a subima- 
gem correspondente, além de descrever matematicamente 
o processo utilizando a Equação 8.2-24. Quando a máscara 
for aplicada (via Equação 8.2-24) à subimagem para a qual 
ela foi derivada, e a matriz n x n resultante for reordenada 
para formar uma sequência de coeficientes de n? elemen- 
tos de acordo com o padrão de arranjo em zigue-zague da 
Figura 8.29(d), a sequência 1-D reordenada contém várias 
sequências longas dos O (o padrão em zigue-zague se evi- 
dencia ao começar em 0 na Figura 8.29(d) e ao seguir os nú- 
meros na sequência). Essas sequências normalmente são 
codificadas por run-length. Os coeficientes diferentes de 
zero ou retidos, que correspondem às posições da máscara 
que contêm 1, são representados utilizando-se um código 
de tamanho variável. 


Há três formas básicas de limiarizar uma subima- 
gem transformada ou, em outras palavras, de criar uma 
função de mascaramento de limiarização de subimagem 
da forma dada na Equação 8.2-23: (1) um único limiar 
global pode ser aplicado para todas as subimagens; (2) 
um limiar diferente pode ser utilizado para cada subima- 
gem; ou (3) o limiar pode variar em função da posição 
de cada coeficiente dentro da subimagem. Na primeira 
técnica, o nível de compressão difere de uma imagem à 
outra, dependendo do número de coeficientes que exce- 
dem o limiar global. Na segunda, chamada codificação dos 
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N maiores," o mesmo número de coeficientes é descartado 
para cada subimagem. Em consequência, a taxa de codi- 
ficação é constante e previamente conhecida. A terceira 
técnica, tal qual a primeira, resulta em uma taxa de codi- 
ficação variável, mas oferece a vantagem de que limiari- 
zação e quantização podem ser combinadas substituindo 
X(u, v)T(u, v) na Equação 8.2-24 por 


A 


T(u,v) = arred Eu) 


Z(u,v) 
sendo T(u,v) uma aproximação limiarizada e quantizada 


de T(u, v) e Z(u, v) um elemento da matriz de normaliza- 
ção da transformada 


(8.2-26) 


Z(0,0) Z(0,1) Z(0,n—1) 
Z(1,0) : : 
Z= 
Z(n—1,0) Z(n-1,1) Z(n—1,n—1) 
(8.2-27) 


Antes que uma transformada de subimagem nor- 
malizada (limiarizada e quantizada), T(u,v), possa ser in- 
vertida para obter uma aproximação da subimagem g(x, y), 
ela deve ser multiplicada por Z(u, v). A matriz resultante 
desnormalizada, denotada por T(u, v), é uma aproxima- 
ção de T(u,v): 


5 A 


T(u,v)= T(u,v)Z(u,v) (8.2-28) 


A transformada inversa de T(u,v) resulta na aproxi- 
mação da subimagem descomprimida. 


A Figura 8.30(a) ilustra graficamente a Equação 8.2-26 
para o caso em que se atribui um valor particular ca Z(u, v). Ob- 
serve que T(u,v) assume o valor inteiro k se, e somente se 


ke -<<T(u,v)<ke += (8.2-29) 

2 2 

Se Z(u, v) > 2T(u, v), então T(u,v)= 0 e o coefi- 
ciente da transformada é completamente truncado ou 
descartado. Quando T(u,v) é representado por um códi- 
go de tamanho variável cujo tamanho aumenta à medi- 
da que a magnitude de k aumenta, o número de bits uti- 
lizados para representar T(u, v) é controlado pelo valor 
de c. Dessa forma, os elementos de Z podem ser ajusta- 
dos para atingir uma variedade de níveis de compressão. 


* O Nna “codificação dos N maiores” não é uma dimensão de ima- 
gem, mas se refere ao número de coeficientes mantidos. 
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a T(u,v) 4 


b 16 | 11 | 10 | 16 | 24 | 40 | 51 | 61 


12 | 12 | 14 | 19 | 26 | 58 | 60 | 55 


14 | 13 | 16 | 24 | 40 | 57 | 69 | 56 


14 | 17 | 22 | 29 | 51 | 87 | 80 | 62 


18 | 22 | 37 | 56 | 68 | 109} 103} 77 


24 | 35 | 55 | 64 | 81 | 104} 113) 92 


49 | 64 | 78 | 87 | 103] 121] 120} 101 


72 | 92 | 95 | 98 | 112} 100} 103) 99 


Figura 8.30 (a) Uma curva de quantização de codificação por limia- 
rização (veja a Equação 8.2-29); (b) Uma matriz de normalização típica. 


A Figura 8.30(b) mostra uma matriz de normalização 
típica. Esse arranjo, que foi amplamente utilizado na 
padronização do JPEG (veja a próxima seção), ponde- 
ra cada coeficiente de uma subimagem transformada de 
acordo com sua importância perceptual ou psicovisual 
heuristicamente determinada. 


Exemplo 8.16 Ilustração da codificação por limiarização. 


As figuras 8.31(a) a (f) mostram seis aproximações co- 
dificadas por limiarização da imagem monocromática da Fi- 
gura 8.9(a). Todas as imagens foram geradas utilizando uma 
DCT 8 x 8 e a matriz de normalização da Figura 8.30(b). O 
primeiro resultado, que proporciona uma taxa de compres- 
são de aproximadamente 12 por 1 (isto é, C= 12), foi obtido 
por meio da aplicação direta da matriz de normalização. Os 
outros resultados, que comprimem a imagem original em 
19, 30, 49, 85 e 182 por 1, foram gerados após multiplicar 
(ajustar) as matrizes de normalização por 2, 4, 8, 16 e 32, 
respectivamente. Os erros rms correspondentes são de 3,83; 
4,93; 6,62; 9,35; 13,94; e 22,46 níveis de intensidade. 

= 


JPEG 


Um dos padrões de compressão de imagens estáticas 
e tons contínuos mais populares e abrangentes é o padrão 


JPEG. Ele define três diferentes sistemas de codificação: 
(1) um sistema de codificação baseline com perdas, ba- 
seado na DCT e adequado para a maioria das aplicações 
de compressão; (2) um sistema de codificação estendido 
para aplicações de maior compressão, maior precisão ou 
de reconstrução progressiva; e (3) um sistema de codi- 
ficação independente sem perdas para compressão re- 
versível. Para ser compatível com o JPEG, um produto 
ou sistema deve incluir suporte para o sistema baseline. 
Nenhum formato de arquivo, resolução espacial ou mo- 
delo de espaço colorido particular é especificado. 


No sistema baseline, muitas vezes chamado sistema ba- 
seline sequencial, a precisão dos dados de entrada e de 
saída se limita a 8 bits, ao passo que os valores quanti- 
zados da DCT são restritos a 11 bits. A compressão em si 
é realizada em três passos sequenciais: cálculo da DCT, 
quantização e atribuição do código de tamanho variável. 
A imagem é primeiro subdividida em blocos de pixels de 
tamanho 8 x 8, que são processados da esquerda para a 
direita, de cima para baixo. À medida que cada bloco ou 
subimagem 8 x 8 é encontrada, seus 64 pixels têm seus 
níveis deslocados, subtraindo-se a quantidade 2*', em 
que 2* é o maior número de níveis de intensidade. De- 
pois, a transformada discreta do cosseno bidimensional 
do bloco é calculada, quantizada de acordo com a Equa- 
ção 8.2-26 e reordenada, utilizando o padrão em zigue- 
zague da Figura 8.29(d), para formar uma sequência 
1-D de coeficientes quantizados. 


Uma vez que o vetor reordenado unidimensional- 
mente gerado em relação ao padrão em zigue-zague da 
Figura 8.29(d) é qualitativamente arranjado de acordo 
com a frequência espacial crescente, o procedimento de 
codificação JPEG é projetado para se beneficiar das lon- 
gas sequências de zeros que normalmente resultam da 
reordenação. Em particular, os coeficientes não zero, AC” 
são codificados utilizando-se um código de tamanho va- 
riável que define os valores de coeficiente e o número de 
zeros que o precedem. O coeficiente DC é codificado por 
diferença relativamente aos coeficientes da subima- 
gem prévia. As tabelas A.3, A.4 e A.5 do Apêndice 
A apresentam os códigos de Huffman JPEG padrão 
para imageamento de luminância de uma imagem co- 
lorida ou intensidade de uma imagem monocromática. 
A matriz de quantização de luminancia JPEG recomen- 
dada é dada na Figura 8.30(b) e pode ser ajustada para 
proporcionar uma variedade de níveis de compressão. O 


* No padrão, o termo AC indica todos os coeficientes de transfor- 
mada, com exceção do número zero ou do coeficiente DC. 
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Figura 8.31 


ajuste dessa matriz permite que os usuários selecionem a 
“qualidade” das compressões JPEG. Apesar de as tabelas 
de codificação padrão e das matrizes de quantização se- 
rem desenvolvidas tanto para o processamento colorido 
quanto monocromático, o usuário pode construir tabelas 
e/ou matrizes customizadas, que podem ser adaptadas às 
características da(s) imagem (ns) sendo comprimida(s). 


= 
Exemplo 8.17 Codificação e decodificação 
baseline JPEG. 


Considere a compressão e a reconstrução da seguinte 
subimagem 8 x 8 com o padrão baseline JPEG: 


52 55 61 66 70 61 64 73 
63 59 66 90 109 85 69 72 
62 59 68 113 144 104 66 73 
63 58 71 122 154 106 70 69 
67 61 68 104 126 88 68 70 
79 65 60 70 77 63 58 75 
85 71 64 59 55 61 65 83 
87 79 69 68 65 76 78 94 
A imagem original consiste em 256 ou 2º intensidades 


possíveis, de forma que o processo de codificação começa 
por um deslocamento dos níveis dos pixels da subimagem 


Aproximações da Figura 8.9(a) utilizando o DCT e a matriz de normalização da Figura 8.30(b): (a) Z, (b) 2Z, (c) 4Z, (d) 8Z, (e) 16Z e (f) 322. 


original por -2’ ou -128 níveis de intensidade. O arranjo 
deslocado resultante é 


76 73 67 62 58 67 64 55 
65 69 62 38 19 43 59 56 
66 69 60 15 16 =24 -=62 =55 
65 70 57 6 20 =22. -=58 =59 
6l 67 60 24 2 40 60 58 
49 63 68 58 51 65 70 53 
43 57 64 69 73 67 63 45 
41 49 59 60 63 52 50 34 


que, quando transformado de acordo com a DCT direta das 
equações 8.2-10 e 8.2-18 para n = 8, se torna 


—415 -29 —62 25 55. =20 =] 3 
7 24 =62 9 11 =] =6 
—46 8 dd 25) 30 10 7 =) 
=5U 13 a () =9 6 0 3 
11 8 13 2 1 —4 1 
—10 1 3 o —1 0 2 =] 
—4 =l 2 —1 2 =9 1 =2 
1 1 1 2 1 1 0 =l 


Se a matriz de normalização JPEG recomendada da 
Figura 8.30(b) for utilizada para quantizar a matriz transfor- 
mada, os coeficientes ajustados e truncados (isto é, normali- 
zados de acordo com a Equação 8.2-26) são 
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—26 = —6 2 2 0 0 0 
1 =2 —4 0 0 0 0 0 
=3 1 5 = =] 0 0 0 
—4 1 2 = 0 0 0 0 
1 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 


T(0,0) = arred TO) 
Z(0,0) 
= arred = =—26 
16 


Observe que a transformação e o processo de norma- 
lização produzem um grande numero de coeficientes nulos. 
Quando os coeficientes são ordenados de acordo com o pa- 
drão zigue-zague da Figura 8.29(d), a sequência de coefi- 
cientes 1-D resultante é 


[-26-31-3-2-62-41-41150200-1200000-1 —1 EOB] 


em que o símbolo EOB representa a condição de fim de blo- 
co (end of block). Uma palavra-código de Huffman especial 
para o EOB (veja a sequência 0 e a categoria na Tabela A.5) 
é atribuída para indicar que o restante dos coeficientes em 
uma sequência reordenada é nulo. 


A construção do código JPEG padrão para a sequência 
de coeficientes reordenada começa com o cálculo da dife- 
rença entre o coeficiente DC atual e aquele da subimagem 
previamente codificada. Presumindo-se que o coeficiente 
DC da subimagem transformada e quantizada na posição 
imediatamente à esquerda era 17, a diferença DPCM resul- 
tante é [-26 — (-17)] ou -9, que se inclui na categoria 4 de 
diferença DC da Tabela A.3. De acordo com o código de di- 
ferença padrão de Huffman da Tabela A.4, o código de base 
adequado para categoria 4 de diferença é 101 (um código 
de 3 bits), ao passo que o tamanho total de um coeficien- 
te de categoria 4 completamente codificado é de 7 bits. 
Os 4 bits restantes devem ser gerados a partir dos bits menos 
significativos (LSBs, do inglês, least significant bits) do valor 
diferença. Para uma categoria diferença geral DC (digamos, 
a categoria K), K bits adicionais são necessários e calculados 
como os K LSBs da diferença positiva ou os K LSBs da dife- 
rença negativa menos 1. Para uma diferença de —9, os LSBs 
apropriados são (0111) - 1 ou 0110, e a palavra-código 
DC codificada completamente por DPCM é 1010110. 


Os coeficientes AC não nulos do vetor reordenado são 
codificados de forma similar às tabelas A.3 e A.5. A principal 
diferença é que cada palavra-código de Huffman de AC pa- 
drão depende do número de coeficientes nulos precedendo 
o coeficiente não nulo a ser codificado, bem como da cate- 


goria de magnitude do coeficiente não nulo. (Veja a coluna 
Sequência/Categoria na Tabela A.5.) Dessa forma, o primeiro 
coeficiente AC não nulo do vetor reordenado (-3) é codificado 
como 0100. Os primeiros 2 bits desse código indicam que o 
coeficiente estava na categoria de magnitude 2 e foi precedi- 
do por coeficientes de valor não nulo (veja a Tabela A.3); os 
últimos 2 bits são gerados pelo mesmo processo utilizado para 
chegar aos LSBs do código diferença DC. Prosseguindo dessa 
forma, o vetor reordenado completamente codificado é 


1010110 0100 001 0100 0101 100001 0110 100011 001 100011 001 
001 100101 11100110 110110 0110 11110100 000 1010 


sendo que os espaços foram inseridos apenas para auxiliar na 
legibilidade. Apesar de não ser necessário neste exemplo, o có- 
digo JPEG padrão contém uma palavra-código especial para 
uma sequência de 15 zeros seguidos de um zero (veja a sequén- 
cia F e a categoria 0 na Tabela A.5). O número total de bits 
em um vetor reordenado completamente codificado (e, dessa 
forma, o número de bits necessários para representar toda a 
subimagem 8 x 8 de 8 bits desse exemplo) é 92. A taxa de com- 
pressão resultante é 512/92 ou, aproximadamente 5,6:1. 


Para descomprimir uma subimagem comprimida por 
JPEG, o decodificador deve primeiro recriar os coeficientes 
da transformada normalizada que levaram à cadeia de bits 
comprimida. Como uma sequência binária codificada por 
Huffman é decodificável instantaneamente de forma única, 
esse passo é facilmente realizado por meio de uma simples 
tabela indexada (lookup-table). 


Aqui, a matriz novamente gerada dos coeficientes 
quantizados é 


—26 =3 —6 2 2 0 0 0 
1 =2 —4 0 0 0 0 0 
=3 1 5 =l = 0 0 0 
—4 1 2 =] 0 0 0 0 
1 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 


Após a desnormalização de acordo com a Equação 8.2-28, 
a matriz passa a ser 


—416  —33 —-60 32 48 0 0 0 
12 —24 -56 0 0 0 0 0 
—42 13 80 —24 —40 0 0 0 
—56 17 44 —29 0 0 0 0 
18 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 

0 0 0 0 0 0 0 0 


em que, por exemplo, 0 coeficiente DC é calculado como 


7 (0,0) = T(0,0)Z(0,0) = (—26) (16) = —416 


A subimagem completamente reconstruída é obtida 
tornando-se a DCT inversa da matriz desnormalizada de 
acordo com as equações 8.2-11 e 8.2-18 para obter 


70 64 61 64 69 66 58 50 
72 73 61 39 30 40 54 59 
68 78 58 9 13 -12 -48 —64 
S09: =J 57 0 22 =13 —5l =60 
54 75 64 23 13 44 63 56 
52 71 72 54 54 71 71 54 
45 59 70 68 67 67 61 50 
35 47 61 66 60 48 44 44 


e deslocando o nivel de cada pixel inversamente transfor- 
mado por +27 (ou +128) para resultar em 


58 64 67 64 59 62 70 78 
56 55 67 89 98 88 74 69 
60 50 70 119 141 116 80 64 
69 51 71 128 149 115 77 68 
74 53 64 105 115 84 65 72 
76 57 56 74 75 57 57 74 
83 69 59 60 61 61 67 78 
93 81 67 62 69 80 84 84 


Quaisquer diferenças entre as subimagens original e 
reconstruída são resultados da natureza “com perdas” dos 
processos de compressão e descompressão JPEG. Neste 
exemplo, os erros variam entre -14 a +11 e são distribuí 
dos como segue: 
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—6 = —6 2 11 = —6 =5 
+ =] 1 11 =3 =5 
9 2 6 3 12 14 
—6 7 0 4 5 9 7 1 
=, 8 4 =] 6 =2 
8 4 —4 2 1 1 
2 5 =] =6 0 =2 5 
=6 =2 2 6 —4 —4 =6 10 


O erro de raiz média quadrática do processo completo 

de compressão e reconstrução é de aproximadamente 5,8 
níveis de intensidade. 

E 


Exemplo 8.18 Ilustração da codificação JPEG. 


As figuras 8.32(a) e (d) mostram duas aproximações 
JPEG da imagem monocromática da Figura 8.9(a). O pri- 
meiro resultado proporciona uma compressão de 25:1; o se- 
gundo comprime a imagem original por 52:1. As diferenças 
entre a imagem original e as imagens reconstruídas nas figuras 
8.30(a) e (d) são mostradas nas figuras 8.30(b) e (e), respectiva- 
mente. Os erros rms correspondentes são de 5,4 e 10,7 intensi- 
dades. Os erros são claramente visíveis nas imagens ampliadas 
das figuras 8.32(c) e (f). Essas imagens mostram uma área am- 
pliada das figuras 8.32(a) e (d), respectivamente. Observe que 
o artefato de bloco JPEG aumenta com a compressão. 

= 


Figura 8.32 Duas aproximações JPEG da Figura 8.9(a). Cada linha contém um resultado após a compressão e a reconstrução, a diferença ajus- 
tada entre o resultado e a imagem original, e uma área ampliada da imagem reconstruída. 
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8.2.9 Codificação preditiva 


Agora nos voltamos para uma técnica mais simples 
de compressão que possibilita uma boa compressão sem 
um custo computacional significativo e pode ser tanto livre 
de erros quanto com perdas. A abordagem, comumente 
chamada codificação preditiva, se baseia na eliminação das 
redundâncias de pixels com pouco espaçamento entre si — 
em termos de espaço e/ou tempo — extraindo e codifican- 
do apenas as informações novas em cada pixel. As novas 
informações de um pixel são definidas como a diferença 
entre o valor atual e o valor previsto para o pixel.” 


Codificação preditiva sem perda 


A Figura 8.33 mostra os componentes básicos de um 
sistema de codificação preditiva sem perda. O sistema consiste 
em um codificador e um decodificador, cada um contendo 
um previsor idêntico. À medida que amostras sucessivas de 
sinal discreto de entrada no tempo, f(n), são introduzidas 
no codificador, o previsor gera o valor antecipado de cada 
amostra com base em um número especificado de amos- 
tras passadas. A saída do previsor é, então, arredondada 
para o número inteiro mais próximo, expresso por f(n) ; é 
utilizada para formar a diferença ou erro de previsão 


e(n) = f(n)— fin) 


que é codificada por codificação de tamanho variável 
(pelo codificador de símbolos) para gerar o próximo ele- 
mento da sequência comprimida de dados. O decodifica- 
dor da Figura 8.33(b) reconstrói e(n) a partir das palavras- 
-código de tamanho variável e realiza a operação inversa 


(8.2-30) 


(8.2-31) 


para descomprimir ou recriar a sequência de entrada 
original. 

Vários métodos locais, globais e adaptativos (veja 
a subseção intitulada Codificação preditiva com perda) 
podem ser utilizados para gerar fin) . Em muitos casos, 
a previsão é formada como uma combinação linear de 
m amostras anteriores. Isto é, 


m 


da, fin—i) 


A 


f(n) = arred (8.2-32) 


em que m é a ordem do previsor linear, arred é uma função 
utilizada para indicar o arredondamento ou a operação no 
número inteiro mais próximo e a, para i = l, 2, ..., m 
são coeficientes de previsão. Se a sequência de entrada da 
Figura 8.33(a) for considerada amostras de uma imagem, 
a f(n) nas equações 8.2-30 a 8.2-32 são pixels — e as m 
amostras utilizadas para prever o valor de cada pixel re- 
sultam das linhas de varredura atual (chamada codificação 
preditiva linear 1-D), ou das linhas de varredura atual e 
anterior (denominadas codificação preditiva linear 2-D) 
ou da imagem atual e imagens anteriores em uma sequên- 
cia de imagens (chamada codificação preditiva linear 3-D). 
Dessa forma, para uma codificação preditiva linear de uma 
imagem 1-D, a equação 8.2-32 pode ser expressa como 


A 


f(x,y) = arred 


Daft, y=i) (8.2-33) 
em que cada amostra agora é expressa explicitamente 
como uma função das coordenadas espaciais da imagem 
de entrada, x e y. Observe que a Equação 8.2-33 indica 
que a previsão linear 1-D é em função dos pixels ante- 
riores somente da linha atual. Na codificação preditiva 


Sequência f am Codificador Sequência 
de entrada = de símbolos comprimida 
Previsor || Inteiro mais t i 
próximo fn) 
b 
Sequência Decodificador KE Í fn) Sequência 
comprimida de símbolos i + descomprimida 
= Previsor 


fn) 


Figura 8.33 Um modelo de codificação preditiva sem perda: (a) codificador; (b) decodificador. 


* Em relação às tabelas 8.3 e 8.4, a codificação de preditiva é utilizada em JBIG2, JPEG, JPEG-LS, MPEG-1,2,4, H.261, H.262, H.263 e H.264, 


HDV, VC-1 e outros padrões de compressão e formatos de arquivo. 


2-D, a previsão é em função dos pixels anteriores em uma 
varredura de uma imagem da esquerda para a direita e de 
cima para baixo. No caso 3-D, ela se baseia nesses pixels 
e nos pixels anteriores dos quadros que os precedem. A 
Equação 8.2-33 não pode ser calculada em relação aos m 
primeiros pixels de cada linha, de forma que esses pixels 
devem ser codificados utilizando outros métodos (como 
um código de Huffman) e considerados como uma sobre- 
carga do processo de codificação preditiva. Comentários 
similares se aplicam aos casos de dimensões mais altas. 


= 
Exemplo 8.19 Codificação preditiva e redundância 
espacial. 


Considere a codificação da imagem monocromática da 
Figura 8.34(a) utilizando o simples previsor linear de pri- 
meira ordem (isto é, m = 1) da Equação 8.2-33 


f(x,y) = arredļa f(x,y — 1)| 


Essa equação é uma simplificação da Equação 8.2-33 
com m = 1 e o subscrito do coeficiente de previsão isolado 
a, é desconsiderado como desnecessário. Um previsor com 


(8.2-34) 


Figura 8.34 


o 


Número de pixels (X 1.000) 


o 


Número de pixels (X 10.000) 
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essa forma geral é chamado previsor de pixel prévio e o 
procedimento de codificação preditiva correspondente é 
conhecido como codificação diferencial ou codificação de pixel 
prévio. A Figura 8.34(c) mostra a imagem de erro de previsão, 
e(x,y)= f(x,y)— f(x,y), que resulta da Equação 8.2-34 
com a = 1. O ajuste dessa imagem é tal que a intensidade 
128 representa um erro de previsão nulo, ao passo que to- 
dos os erros de previsão positivos e negativos diferentes de 
zero (estimativas para menos e para mais) são exibidos como 
tons de cinza mais claros e mais escuros, respectivamente. 
O valor médio da imagem de previsão é 128,26. Como a 
intensidade 128 corresponde a um erro de previsão 0, o erro 
de previsão médio é de apenas 0,26 bits. 


As figuras 8.34(b) e (d) mostram o histograma de in- 
tensidades da imagem na Figura 8.34(a) e o histograma do 
erro de previsão e(x, y), respectivamente. Observe que o des- 
vio padrão do erro de previsão na Figura 8.34(d) é muito 
menor que o desvio padrão das intensidades da imagem ori- 
ginal. Além disso, a entropia do erro de previsão — estimada 
utilizando-se a Equação 8.1-7 — é significativamente menor 
que a entropia estimada da imagem original (3,99 bits/pixel 
em comparação com 7,25 bits/pixel). Essa redução da entro- 
pia reflete a remoção de grande parte da redundância espa- 


Desv.-pad. = 45,60)— 
Entropia = 7,25 
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0,4 
0,2 
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—300 
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—200 
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Erro de previsão 


(a) Terra vista de uma nave espacial em órbita. (b) Histograma de intensidades de (a). (c) Imagem de erro de previsão resultante da 


Equação 8.2-34. (d) Histograma do erro de previsão. (Imagem original: cortesia da Nasa.) 
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cial, apesar do fato de que, para imagens de k bits, (k + 1) bits 
são necessários para representar com precisão a sequên- 
cia de erro de previsão e(x, y). Em geral, a compressão 
máxima de uma técnica de codificação preditiva pode ser 
estimada dividindo-se o número médio de bits utilizados 
para representar cada pixel na imagem original por uma es- 
timativa da entropia do erro de previsão.” Neste exemplo, 
qualquer procedimento de codificação de tamanho variável 
pode ser utilizado para codificar e(x, y), mas a compressão 
resultante será limitada a aproximadamente 8/3,99 ou 2:1. 

E 


O exemplo anterior ilustra que a compressão atin- 
gida na codificação preditiva se relaciona diretamente à 
redução de entropia que resulta do mapeamento da ima- 
gem de entrada em uma sequência de erro de previsão — 
muitas vezes chamada residual de previsão. Como a redun- 
dância espacial é removida pelo processo de previsão e 
diferenciação, a função densidade de probabilidade do re- 
sidual de previsão, em geral, possui um pico centrado em 
zero e é caracterizado por uma variância relativamente 
pequena (em comparação com a distribuição das inten- 
sidades da entrada). De fato, a função densidade do erro 
muitas vezes é modelada por uma PDF laplaciana não 
correlacionada de média zero. 


e (8.2-35) 


Da, 


em que é o desvio padrão de e. 


E 
Exemplo 8.20 Codificação preditiva e redundância 
temporal. 


A imagem da Figura 8.34(a) é uma parte de um quadro 
de um vídeo da Nasa no qual a Terra está se movendo da 
esquerda para a direita em relação a uma câmera estacioná- 
ria instalada em uma nave espacial. Ela é repetida na Figura 
8.35(b) — bem como seu quadro imediatamente anterior na 
Figura 8.35(a. Utilizando o previsor linear de primeira ordem 

f(x,y,t) = arred[af(x,y,t—1)] (8.2-36) 
com a = 1, as intensidades dos pixels na Figura 8.35(b) po- 
dem ser previstas a partir dos pixels correspondentes em (a). 
A Figura 8.34(c) é a imagem do residual de previsão resultan- 
te, e(x,y,t)= f(x, y,t)— f(x,y,t). A Figura 8.34(d) é o histo- 
grama de e(x, y, t). Observe que há muito pouco erro de previ- 
são. O desvio padrão do erro é muito menor que no exemplo 
anterior — 3,76 bits/pixel em comparação com 15,58 bits/ 
pixel. Além disso, a entropia do erro de previsão (calculada 
utilizando-se a Equação 8.1-7) diminuiu de 3,99 a 2,59 bits/ 


* Observe que o erro de previsão codificado de tamanho variável é 
a imagem comprimida. 


pixel. Por meio da codificação de tamanho variável do residual 
de previsão resultante, a imagem original é comprimida em 
aproximadamente 8/2,59 ou 3,1:1 — uma melhoria de 50% 
em relação à compressão de 2:1 obtida usando-se o previsor 
do pixel prévio orientado no espaço do Exemplo 8.19.” 

E 


Residuais de previsão com compensação de 
movimento 


Como vimos no Exemplo 8.20, quadros sucessivos 
em uma sequência de vídeo muitas vezes são muito simi- 
lares. Codificar suas diferenças pode reduzir a redundân- 
cia temporal e proporcionar uma compressão significati- 
va. Contudo, quando uma sequência de quadros contém 
objetos se movendo rapidamente — ou envolve zoom e 
giros de câmera, mudanças súbitas ou aumento e dimi- 
nuição gradual na intensidade de luz da cena (fade-in e 
fade-out, respectivamente) — a semelhança entre quadros 
vizinhos é reduzida e a compressão é negativamente afe- 
tada. Isto é, como a maioria das técnicas de compressão 
(veja o Exemplo 8.5), a codificação preditiva temporal 
funciona melhor com certos tipos de entrada — isto é, 
uma sequência de imagens com significativa redundân- 
cia temporal. Quando utilizadas em imagens com pouca 
redundância temporal, pode ocorrer expansão de dados. 
Os sistemas de compressão de vídeo evitam o problema 
da expansão de dados de duas formas: 


1. Monitorando o movimento dos objetos e compen- 
sando esse movimento durante o processo de previ- 
são e diferenciação. 


2. Passando para um método de codificação alternati- 
vo quando a correlação entre quadros (semelhança 
entre quadros) é insuficiente para beneficiar-se da 
codificação preditiva. 

Analisamos o primeiro método — chamado compen- 
sação de movimento — no restante desta seção. Antes de 
prosseguir, contudo, observamos que, quando a correla- 
ção entre os quadros é insuficiente para que a codificação 
preditiva seja eficaz, o segundo problema costuma ser so- 
lucionado utilizando-se uma transformada 2-D orientada 
por blocos, como a codificação baseada em DCT, do JPEG 
(veja a Seção 8.2.8). Os quadros comprimidos dessa for- 
ma (isto é, sem residuais de previsão) são denominados 
quadros independentes (I-frames) ou intraquadros. Eles po- 
dem ser decodificados sem acesso a outros quadros do 
video ao qual pertencem. Os I-frames normalmente se 
assemelham a imagens codificadas por JPEG e consti- 


“ Lembre-se que o erro de previsão codificado de tamanho variável 
é a imagem comprimida. 
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Figura 8.35 
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Erro de previsão 


(a) e (b) Duas visões da Terra de um vídeo adquirido por uma nave espacial em órbita. (c) A imagem de erro de previsão resultante 


da Equação 8.2-36. (d) Um histograma do erro de previsão. (Imagens originais: cortesia da Nasa.) 


tuem pontos de partida ideais para a geração de residuais 
de previsão. Além disso, eles proporcionam alto grau de 
acesso aleatório, facilidade de edição e resistência à pro- 
pagação do erro de transmissão. Em consequência, todos 
os padrões requerem a inserção periódica de I-frames na 
sequência de códigos (codestream) do vídeo comprimido. 


A Figura 8.36 ilustra o processo básico da codifi- 
cação preditiva com compensação de movimento. Cada 
quadro de vídeo é dividido em regiões retangulares não 
sobrepostas — normalmente de tamanho 4 x 4 a 16 x 
16 — chamadas macroblocos. (Somente um macrobloco é 
mostrado na Figura 8.36.) O “movimento” de cada ma- 
crobloco em relação à sua posição “mais provável” no 
quadro anterior (ou subsequente) do vídeo, chamado 
quadro de referência, é codificado em um vetor de movimento.” 
O vetor descreve o movimento definindo o deslocamento 
horizontal e vertical a partir da posição “mais provável”. 


* A posição “mais provável” é aquela que minimiza a medida de 
erro entre o macrobloco de referência e o macrobloco sendo codi- 
ficado. Os dois blocos não precisam ser representações do mesmo 
objeto, mas devem minimizar a medida de erro. 


Os deslocamentos normalmente são especificados com a 
precisão do pixel mais próximo, + pixel ou + pixel. Se a 
precisão de subpixel for utilizada, as previsões devem ser 
interpoladas [por exemplo, utilizando-se a interpolação 
bilinear (veja a Seção 2.4.4)] a partir de uma combinação 
de pixels no quadro de referência. Um quadro codificado 
baseado no quadro anterior (uma previsão futura na Figu- 
ra 8.36) é chamado quadro preditivo (P-frame); um quadro 
baseado no quadro subsequente (uma previsão passada na 
Figura 8.36) é conhecido como quadro bidirecional (B-fra- 
me). Os B-frames requerem que o codestream comprimido 
seja reordenado de forma que os quadros sejam apre- 
sentados ao decodificador na sequência de decodificação 
adequada — em vez da ordem de exibição natural. 


Como era de esperar, a estimativa de movimento é um 
componente-chave da compensação de movimento. Du- 
rante a estimativa de movimento, o movimento dos ob- 
jetos é medido e codificado em vetores de movimento. A 
busca do “melhor” vetor de movimento requer a defini- 
ção de um critério. Por exemplo, vetores de movimento 
podem ser selecionados com base na máxima correlação 
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ou no erro mínimo entre os pixels de macrobloco e os 
pixels previstos (ou os pixels interpolados para os vetores 
de movimento subpixel) a partir do quadro de referên- 
cia escolhido. Uma das medidas de erro mais comumen- 
te utilizada é a distorção absoluta média (MAD, do inglês, 
mean absolute distortion) 


m n 


l na. 
MAD\(x,y)=— LY fla Fi y+ jf)—p(xt+itdx,y+j+d)| 


(8.2-37) 


na qual x e y são as coordenadas do pixel posicionado no 
canto superior esquerdo do macrobloco m x n sendo co- 
dificado, dx e dy são deslocamentos a partir do quadro de 
referência, como mostra a Figura 8.36, e p é um arranjo 
de valores de pixels dos macroblocos previstos. Para a es- 
timativa do vetor de movimento subpixel, p é interpolado 
a partir dos pixels em um quadro de referência. Normal- 
mente, dx e dy devem cair em uma região de busca limitada 
(veja a Figura 8.36) ao redor de cada macrobloco. Valores 
de +8 a +64 pixels são comuns, e a área de busca horizon- 
tal muitas vezes é ligeiramente maior que a área vertical. 
Uma medida de erro mais computacionalmente eficiente, 
chamada soma das distorções absolutas (SAD, do inglês, sum of 
absolute distortions), omite o fator 1/mn na Equação 8.2-37. 


Dado um critério de seleção como o da Equação 8.2-37, 
a estimativa de movimento é realizada executando-se uma 
busca para os dx e dy que minimizam o MAD(x, y) ao 
longo do intervalo permitido para deslocamentos do vetor 
de movimento — incluindo deslocamentos de subpixel. 
Esse processo muitas vezes é chamado casamento por blocos. 
Uma busca exaustiva garante o melhor resultado possível, 


Vetor de 
movimento 


Figura 8.36 Especificação do movimento de macroblocos. 


mas é computacionalmente onerosa, pois cada movimento 
possível deve ser testado em todo o intervalo do deslo- 
camento. Para macroblocos 16 x 16 e um intervalo de 
deslocamento de +32 pixels (nada fora de questão para 
filmes de ação e eventos esportivos), 4.225 cálculos de 
MAD 16 x 16 devem ser realizados para cada macrobloco 
em um quadro quando a precisão de deslocamento de 
inteiro é utilizada. Se a precisão de 1 ou 4 pixel for 
desejada, o número de cálculos é multiplicado por um 
fator de 4 ou 16, respectivamente. Algoritmos de busca 
rápida podem reduzir a carga computacional, mas podem 
ou não gerar vetores de movimento ótimos. Uma série de 
algoritmos de estimativa rápida de movimento baseados 
em blocos foi proposta e analisada na literatura [veja, 
por exemplo, Furht et al. (1997) ou Mitchell et al. (1997)]. 


Exemplo 8.21 Previsão por compensação de movimento. 


As figuras 8.37(a) e (b) são provenientes da mes- 
ma sequência de vídeo da Nasa utilizada nos exemplos 
8.19 e 8.20. A Figura 8.37(b) é idêntica às figuras 8.34(a) 
e 8.35(b); a Figura 8.37(a) representa área corresponden- 
te de um quadro que ocorre treze quadros antes. A Figu- 
ra 8.37(c) é a diferença entre os dois quadros, ajustada 
para o intervalo de intensidade total. Observe que a dife- 
rença é O na área da nave espacial estacionária (em rela- 
ção à câmera), mas há significativas diferenças no restante 
da imagem em virtude do movimento relativo da Terra. O 
desvio padrão dos residuais de previsão da Figura 8.37(c) 
é de 12,73 níveis de intensidade; sua entropia (utilizando- 
se a Equação 8.1-7) é de 4,17 bits/pixel. A máxima com- 
pressão que pode ser atingida com a codificação de tama- 
nho variável dos residuais de previsão é C = 8/4,17 = 1,92. 


Vetor de 
movimento 


A Figura 8.37(d) mostra um residuais de previsão com- 
pensado por movimento com um desvio padrão muito mais 
baixo (5,62 em comparação com 12,73 níveis de inten- 
sidade) e uma entropia ligeiramente mais baixa (3,04 ver- 
sus 4,17 bits/pixel). A entropia foi calculada utilizando a 
Equação 8.1-7. Se os residuais de previsão da Figura 8.37(d) 
forem codificados com códigos de tamanho variável, a taxa de 
compressão resultante é C= 8/3,04 = 2,63. Para gerar esse re- 
siduais de previsão, dividimos a Figura 8.37(b) em macroblo- 
cos 16 x 16 não sobrepostos e comparamos cada macrobloco 
com cada região 16 x 16 da Figura 8.37(a) — o quadro de 
referência — no intervalo dos +16 pixels da posição do ma- 
crobloco em (b). Utilizamos a Equação 8.2-37 para determinar 
a melhor correspondência selecionando-se o deslocamento 
(dx, dy) com o menor MAD. Os deslocamentos resultantes 
são os componentes x e y dos vetores de movimento mostra- 
dos na Figura 8.37(e). Os pontos brancos na figura mostram o 
sentido dos vetores de movimento; eles indicam o canto supe- 
rior esquerdo dos macroblocos codificados. Como podemos ver 
pelo padrão dos vetores, o movimento predominante na ima- 
gem é da esquerda para a direita. Na porção inferior da imagem, 
que corresponde à área da nave espacial na imagem original, 
não há movimento e, portanto, não há a exibição de vetores de 
movimento. Os macroblocos nessa área são previstos a partir 
de macroblocos de localização similar (isto é, os macroblocos 
“casados”) no quadro de referência. Como os vetores de mo- 
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vimento da Figura 8.37(e) são altamente correlacionados, eles 
podem ser codificados por códigos de tamanho variável para 
reduzir os requisitos de armazenamento e transmissão. 

E 


A Figura 8.38 ilustra a crescente precisão da previsão 
possível com uma compensação de movimento de subpi- 
xel. A Figura 8.38(a) é repetida na Figura 8.37(c) e incluída 
como um ponto de referência; ela mostra o erro de previsão 
que resulta da ausência de compensação de movimento.” 
As imagens das Figuras 8.38(b), (c) e (d) são residuais de 
previsão com compensação de movimento. Elas se baseiam 
nos mesmos dois quadros utilizados no Exemplo 8.21 e são 
calculadas com deslocamentos de macrobloco para a reso- 
lução (isto é, precisão) de 1, 1 e 1 pixel, respectivamente. 
Foram utilizados macroblocos de tamanho 8 x 8 e os deslo- 
camentos foram limitados a +8 pixels. 


A diferença visual mais significativa entre os resi- 
duais de previsão da Figura 8.38 é o número e o tamanho 
dos picos e vales de intensidade — as áreas mais escuras 
e claras de intensidade. O residual de + pixel da Figura 
8.38(d) é o mais uniforme, ou seja, o que apresenta me- 
nos variações de intensidade dentre as quatro imagens, 


com o menor número de incursões ao preto ou branco. 


Figura 8.37 


(a) e (b) Duas visões da Terra com treze quadros de distância em um vídeo adquirido de uma nave espacial em órbita. (c) Uma ima- 


gem de erro de previsão sem compensação de movimento. (d) Os residuais de previsão com compensação de movimento. (e) Os vetores de movi- 
mento associados a (d). Os pontos brancos em (d) indicam o sentido dos vetores de movimento representados. (Imagem original: cortesia da Nasa.) 


* 


8.38(b) a (d). 


A diferença visual entre as figuras 8.37(c) e 8.38(a) se deve ao ajuste. A imagem da Figura 8.38(a) foi ajustada para corresponder às figuras 
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Como era de esperar, ele tem o histograma mais estreito. 
Os desvios padrão dos residuais de previsão das figuras 
8.38(a) a (d) diminuem à medida que a precisão do vetor 
de movimento aumenta — de 12,7 a 4,4; 4 e 3,8 pixels, 
respectivamente. As entropias dos residuais, calculadas 
utilizando a Equação 8.1-7, são 4,17; 3,34; 3,35; e 3,34 
bits/pixel respectivamente. Dessa forma, os resíduos com- 
pensados por movimento contêm aproximadamente a 
mesma quantidade de informações apesar do fato de os 
residuais das figuras 8.38(c) e (d) utilizarem bits adicio- 
nais para acomodar a interpolação de 1 e 4 pixel. Por 
fim, observamos que há uma faixa clara de erro de previ- 
são aumentado no lado esquerdo de cada residual com- 
pensado por movimento. Isso se deve ao movimento 
da esquerda para a direita da Terra, que engloba áreas 
novas ou antes não visíveis do relevo da Terra no lado es- 
querdo de cada imagem. Como essas áreas estão ausentes 
nos quadros anteriores, elas não podem ser previstas com 
precisão, independentemente da precisão utilizada para 
calcular os vetores de movimento. 


A estimativa de movimento é uma tarefa que de- 
manda uma grande carga computacional. Felizmente, só 


o codificador deve estimar o movimento de macroblo- 
cos. Dados os vetores de movimento dos macroblocos, 
o decodificador simplesmente acessa as áreas dos qua- 
dros de referência utilizados no codificador para formar 
os residuais de previsão. Em virtude desse fato, a estima- 
tiva de movimento não é incluída na maioria dos padrões 
de compressão de vídeo. Os padrões de compressão se 
concentram no decodificador — impondo restrições às 
dimensões dos macroblocos, à precisão dos vetores de 
movimento, ao intervalo de deslocamento horizontal 
e vertical e assim por diante. A Tabela 8.11 apresenta 
os principais parâmetros de codificação preditiva de alguns 
dos padrões de compressão de vídeo mais importantes. 
Observe que a maioria dos padrões utiliza uma DCT 8 x 8 
para a codificação por I-frames, mas especifica uma área 
maior (isto é, macroblocos 16 x 16) para a compensação 
de movimento. Além disso, até os residuais de previsão 
P- e B-frame são codificados por transformada em razão 
da eficácia da quantização de coeficientes por DCT. Por 
fim, observamos que os padrões H.264 e MPEG-4 AVC 
suportam a codificação preditiva intraquadros (em I-fra- 
mes) para reduzir a redundância espacial. 


Figura 8.38 Residuais de previsão com compensação de movimento por subpixel: (a) sem compensação de movimento; (b) precisão de 1 pixel; 


(c) precisão de - pixel; e (d) precisão de - pixel. (Todos os erros de previsão foram ajustados para o intervalo completo de intensidades e depois 


multiplicados por 2 para aumentar a visibilidade.) 
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Tabela 8.11 Codificação preditiva em padrões de compressão de vídeo. 
H.264 
H.262 VC-1 MPEG-4 
Parâmetro H.261 MPEG-1 MPEG-2 H.263 MPEG-4 WMV-9 AVC 
Precisão do vetor 1 1 E! 1 1 1 
de movimento 2 2 2 4 4 4 
16 x 16 
16 x 8 
8x 16 
Tamanhos dos 16x16 16x 16 16 x 16 16 x 16 16 x 16 16 x 16 8x8 
macroblocos ú ii 16 x 8 8x8 8x8 8x8 i 
8x4 
4x8 
4x4 
8x8 
8x4 
Sa: 8x8 8x8 8x8 8x8 8x8 4x8 
DCT DCT DCT DCT DCT 4x4 . 
; Inteiro 
Inteiro 
DCT 
Previsão entre p PB PB PB PB PB PB 
quadros 
presa Não Não Não Não Não Não Sim 
l-frame 


A Figura 8.39 mostra um típico codificador de vídeo 
por compensação de movimento. Ele explora redundân- 
cias dentro de quadros de vídeo adjacentes e entre si, a 
uniformidade de movimento entre os quadros e as pro- 
priedades psicovisuais do sistema visual humano. Podemos 
pensar na entrada do codificador como macroblocos se- 
quenciais de vídeo. Para o vídeo colorido, cada macrobloco 
é composto por um bloco de luminancia e dois blocos de 


crominância. Como o olho apresenta muito menos preci- 
são espacial para cores do que para a luminancia, os blocos 
de crominância muitas vezes são amostrados na metade da 
resolução horizontal e vertical do bloco de luminância. Os 
elementos acinzentados da figura correspondem às opera- 
ções de transformação, quantização e codificação de tama- 
nho variável de um codificador JPEG. A principal diferen- 
ça é a entrada, que pode ser um macrobloco convencional 


Controlador 
de taxa 
Macrobloco 
da diferença 
Macrobloco Mapeador Canio Codificação de Buffer Macrobloco 
de imagem (por exemplo, DCT) tamanho variável codificado 
A 
Quantizador 
inverso 
Mapeador 
inverso 
(por exemplo., DCT!) 
Monobloco de previsão i 
e H 
Codificação de ee 
l tamanho variável codificado 
Estimador e compensador de 
movimento com tempo «| Macrobloco 
de resposta do quadro decodificado 


Figura 8.39 


Um típico codificador de vídeo por compensação de movimento. 
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de dados de imagem (para I-frames) ou a diferença entre 
um macrobloco convencional e uma previsão baseada em 
quadros de vídeo anteriores e/ou subsequentes (para P- e 
B-frames). O codificador inclui um quantizador inverso e um 
mapeador inverso (isto é, DCT inversa) de forma que suas 
previsões correspondam às do decodificador complemen- 
tar.” Além disso, ele foi projetado para produzir sequências 
de bits comprimidas que correspondam à capacidade do 
canal de vídeo pretendido. Para realizar isso, os parâmetros 
de quantização são ajustados por um controlador de taxa 


Quadro 0021 


x 


Quadro 0266 


Quadro 0959 


Quadro 1224 


o 


Quadro 1595 


Quadro 1609 


como uma função da ocupação de um buffer de saída. 
À medida que a capacidade do buffer atinge o máximo, a 
quantização passa a ser cada vez mais grosseira, de for- 
ma que menos bits fluem para o buffer.” 

E 

Exemplo 8.22 Exemplo de compressão de vídeo. 


Concluímos nossa discussão da codificação preditiva 
com compensação de movimento com um exemplo que 
ilustra o tipo de compressão possível com métodos modernos 
de compressão de vídeo. A Figura 8.40 mostra quinze quadros 


Ea 


Quadro 1088 


Quadro 1652 


Figura 8.40 Quinze quadros do vídeo da Nasa de 1 minuto e 1.829 quadros. O vídeo original é colorido e em HD. (Imagem original: cortesia da Nasa.) 


* A quantização, de acordo com a definição neste capítulo, é irreversível. O “quantizador inverso” na Figura 8.39 não impede a perda de 


informações. 


de um vídeo colorido da Nasa com 1 minuto de duração em 
alta definição (1.280 x 720), partes dos quais foram utilizadas 
ao longo desta seção." Apesar de as imagens mostradas serem 
monocromáticas, o vídeo é uma sequência de 1.829 quadros 
coloridos. Observe a ocorrência de uma variedade de cenas, 
muito movimento e vários efeitos de dissipação. Por exemplo, 
o vídeo tem início com um aumento gradual de intensidade 
(fade-in) de 150 frames a partir do preto, que inclui os qua- 
dros 21 e 44 da Figura 8.40, e termina com uma sequên- 
cia de dissipação contendo os quadros 1.595, 1.609 e 1.652 
da Figura 8.40, seguido de uma transição final até o preto. 
Também há várias mudanças abruptas de cena, como a mu- 
dança envolvendo os quadros 1.303 e 1.304 na Figura 8.40. 


Uma versão comprimida por H.264 do vídeo da Nasa 
armazenada como um arquivo Quicktime (veja a Tabela 8.4) 
requer 44,56 MB de armazenamento — mais 1,39 MB para 
o áudio associado. A qualidade do vídeo é excelente. Cerca 
de 5 GB de dados seriam necessários para armazenar os qua- 
dros de vídeo como imagens coloridas não comprimidas. 
Devemos notar que o vídeo contém sequências envol- 
vendo mudanças tanto de rotação quanto de escala (isto é, a 
sequência incluindo os quadros 959, 1.023 e 1.088 na Figura 
8.40). A análise nesta seção, contudo, se limitou à translação. 

E 


Codificação preditiva com perda 


Nesta seção, acrescentamos um quantizador ao mo- 
delo de codificação preditiva sem perda apresentado ante- 
riormente e analisamos a relação resultante entre a precisão 
da reconstrução e o desempenho da compressão no con- 
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mais próximo do codificador livre de erros, é inserido en- 
tre o codificador de símbolos e o ponto no qual o erro de 
previsão é formado. Ele mapeia o erro de previsão em 
um intervalo limitado de saídas, denotado por é(n), que 
determina o nível de compressão e distorção ocorrida. 


Para acomodar a inserção do passo de quantiza- 
ção, o codificador livre de erros da Figura 8.33(a) deve 
ser alterado de forma que as previsões geradas pelo co- 
dificador e pelo decodificador sejam equivalentes. Como 
mostra a Figura 8.41(a), isso é realizado colocando-se o 
previsor do codificador com perda em um laço de feedback 
(retroalimentação), e sua entrada, indicada por fin), 
é gerada como uma função das previsões passadas e os 
erros quantizados correspondentes. Isto é, 


fin) = en) + fin) (8.2-38) 


na qual fin) está de acordo com nossa definição anterior. 
Essa configuração de laço fechado previne um acúmulo 
de erros na saída do decodificador. Observe, a partir da 
Figura 8.41(b), que a saída do decodificador também é 
dada pela Equação 8.2-38. 


Exemplo 8.23 Modulação delta. 


Amodulação delta (DM, de delta modulation) é uma forma 
simples, porém bem conhecida de codificação preditiva com 
perda, na qual o previsor e o quantizador são definidos como 


texto dos previsores espaciais. Como mostra a Figura 8.41, o f(n)=af(n—]) (8.2-39) 
quantizador, que substitui a função do número inteiro e 
a 
Sequéncia ee e(n) -| Quantizadòr e(n) Codificador Sequéncia 
de entrada foi) = de símbolos comprimida 
F Previsor E 
fn) fn) 
ry 
b 
Sequência Decodificador e(n) fn) Sequência 
comprimida de símbolos gu 43 | ”  descomprimida 
fa) C | Previsor 


Figura 8.41 


Um modelo de codificação preditiva sem perda: (a) codificador; (b) decodificador. 


* Veja o site do livro para saber mais sobre o segmento do vídeo da Nasa utilizado nesta seção. 
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_ |+¢ para e(n)>0 
—¢€ caso contrário 


e(n) 
(8.2-40) 
em que a é um coeficiente de previsão (normalmente menor 
que 1) e ( é uma constante positiva. A saída do quantizador, 
é(n), pode ser representada por um único bit [Figura 8.42 (a)], 
de forma que o codificador de símbolos da Figura 8.41 (a) 
possa utilizar um código de 1 bit de tamanho fixo. A taxa de 
codificação DM resultante é de 1 bit/pixel. 


A Figura 8.42(c) ilustra o funcionamento do proces- 
so de modulação delta, no qual os cálculos necessários para 
comprimir e reconstruir a sequência de entrada (14, 15, 14, 
15, 13, 15, 15, 14, 20, 26, 27, 28, 27, 27, 29, 37, 47, 62, 75, 
77, 78, 79, 80, 81, 81, 82, 82} com a = 1 e (= 6,5 são ta- 
bulados. O processo tem inicio com uma transferéncia livre 
de erros da primeira amostra de entrada do decodificador. 
Com a condição inicial f(0)= f(0)=14 definida tanto no 
codificador quanto no decodificador, as saídas restantes po- 
dem ser calculadas pelas avaliações repetidas das equações 
8.2-39, 8.2-30, 8.2-40 e 8.2-38. Dessa forma, quando n = 1, 
por exemplo, f(1) = (1)(14)=14,e(1)=15-14=1, el) = +6,5 
(pois e(1) > 0), fa) = 6,4 + 14 = 20,5 „e€ 0 erro de reconstrução 
resultante é (15 — 20,5) ou -5,5. 

A Figura 8.42(b) ilustra graficamente os dados tabulados 
da Figura 8.42(c). Tanto a entrada quanto a saida comple- 
tamente decodificada [f(n) e f(n)] são mostradas. Observe 


que, na área de mudança rápida de n = 14 a 19, em que Ç 
era pequeno demais para representar as maiores variações 
de entrada, ocorre uma distorção conhecida como sobrecarga 
de inclinação (slope overload). Além disso, quando ¢ era grande 
demais para representar as menores variações da entrada, 
como na região relativamente suave de n = 0 até n = 7, 
há a ocorrência de ruído granular. Nas imagens, esses dois 
fenômenos levam à bordas borradas de objetos e superfícies 
ruidosas ou granulosas (isto é, áreas suaves distorcidas). 

E 


As distorções observadas no exemplo anterior são 
comuns a todas as formas de codificação preditiva com 
perda. A severidade dessas distorções depende de um 
conjunto complexo de interações entre os métodos de 
quantização e previsão empregados. Apesar dessas in- 
terações, o previsor é normalmente projetado com base 
na premissa de nenhum erro de quantização, e o quan- 
tizador é elaborado para minimizar o próprio erro. Isto 
é, tanto o previsor quanto o quantizador são projetados 
independentemente um do outro. 


Previsores ótimos 


Em muitas aplicações de codificação preditiva, o 
previsor é escolhido para minimizar o erro médio qua- 
drático da previsão do codificador” 


a 4 e(n) 
Cédigo= 1 
+65 
~ > e(n) 
—6,5 Ruído granular 
Código = 0 pi 1 —— 
Sobrecarga de 
t inclinação 
C 
Entrada Codificador Decodificador Erro 

n f) fa e(n) e(n) fn) Êo) fn) Han) — fa 
0 14 14,0 — 14,0 00 
1 15 14,0 10 65 20,5 14,0 20,5 =55 
2 14 20:5 =09 =655 14,0 20,5 14,0 00 
3 15 14,0 10 65 20,5 14,0 20,5 —55 
14 29 20,5 85 65 27,0 20,5 270 20 
15 37 270 10,0 65 33,5 27,0 335 35 
16 47 335 135 65 40,0 335 40,0 70 
17 62 40,0 220 65 46,5 40,0 46,5 15,5 
18 75 46,5 285 65 53,0 46,5 53.0 22,0 
19 TI: 53.0 24,0 65 59,6 53,0 59,6 17,5 


Figura 8.42 Um exemplo de modulação delta. 


* A notação F{-} indica o operador de expectativa estatística. 


Efe (n= Efn- AnP) (8.2-41) 
sujeito à restrição 
f(n)= én) + fn) = e(n)+ fin) = fin) (8.2-42) 
e 
fny=>a,fin-i (8.2-43) 


Isto é, o critério de otimização é escolhido para mi- 
nimizar o erro médio quadrático de previsão, presume-se 
que o erro de quantização seja desprezível [é(n) = e(n)] 
e a previsão seja restrita a uma combinação linear das m 
amostras anteriores.’ Essas restrições não são essenciais, 
mas simplificam consideravelmente a análise e, ao mesmo 
tempo, reduzem a complexidade computacional do previsor. 
O método de codificação preditiva resultante é chamado 
modulação por código de pulso diferencial (DPCM, de differen- 
tial pulse code modulation). 

Sob essas condições, o problema de projeto do pre- 
visor ótimo é reduzido ao exercício relativamente simples 
da seleção dos m coeficientes de previsão que minimizam 
a expressão 

m z 
Ele*(n)} =E | ft) — La, fini | (8-2-44) 

Diferenciando a Equação 8.2-44 em relação a cada 
coeficiente, igualando-se as derivadas a zero, e resolven- 
do-se o conjunto de equações simultâneas assumindo-se 


que f(n) tenha média zero e variância o?, temos 
a=Rr (8.2-45) 


na qual R” é a inversa da matriz de autocorrelação m x m 


E{ f(n—1)f(n—I)} 
E{f(n—2)f(n—)} 


E{f(n—l)f(n—2)} 


E{f(n—m)f(n—1)} B{f(n—m)f(n— 2)} 
E{f(n—If(n—m)} 


E{f(n—m) f(n—m)} 


(8.2-46) 


* Em geral, o previsor ótimo para uma sequência não gaussiana 
é uma função não linear das amostras utilizadas para formar a 
estimativa. 
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erea são os vetores de m elementos 


B{f(n) f(n—1)} a 
Eu TA EA E 
E{f(n)f(n—m)} a,| (8.2-47) 


Dessa forma, para qualquer sequência de entrada, 
os coeficientes que minimizam a Equação 8.2-44 podem 
ser determinados por meio de uma série de operações 
elementares em matrizes. Além disso, os coeficientes de- 
pendem apenas da autocorrelação das amostras na sequên- 
cia original. A variância do erro de previsão resultante da 
utilização desses coeficientes ótimos é 


oi=0'-alr=0" — > Effin) fin- i)}a, (8.2-48) 

Apesar de a avaliação da Equação 8.2-45 ser relati- 
vamente simples, o cálculo das autocorrelações necessá- 
rias para formar R e r é tão difícil na prática que previsões 
locais (aquelas nas quais os coeficientes de previsão são 
calculados para cada sequência de entrada) quase nunca 
são utilizadas. Na maioria dos casos, um conjunto de coe- 
ficientes globais é calculado presumindo-se um modelo de 
entrada simples e substituindo as autocorrelações corres- 
pondentes nas equações 8.2-46 e 8.2-47. Por exemplo, 
quando assumimos uma fonte de Markov bidimensional 
(veja a Seção 8.1.4) com função de autocorrelação separável 


Ele y)fix-iy-jj=opio) (8-2-49) 


e um previsor linear de quarta ordem generalizado 


f(x, y)=a,f(x, y- +a f(x- y—1) 
ta,f(x—1,y)+a,f(x-Ly+]) 


os coeficientes ótimos resultantes [Jain (1989)] são 


(8.2-50) 


=p, =p, 4), Q50 (8251) 


em que p, € p são os coeficientes de correlação horizontal 
e vertical, respectivamente, da imagem sendo analisada. 


Por fim, a soma dos coeficientes de previsão na 
Equação 8.2-43 normalmente deve ser menor ou igual 
a 1. Isto é, 

m 
Da <1 (8.2-52) 

Essa restrição visa garantir que a saída do previsor 
esteja dentro do intervalo permitido da entrada e para 
reduzir o impacto do ruído de transmissão (que é geral- 
mente visualizado como listras horizontais nas imagens 
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reconstruídas quando a entrada na Figura 8.41 (a) é uma 
imagem). É importante reduzir a suscetibilidade do de- 
codificador DPCM ao ruído de entrada porque um único 
erro (nas circunstâncias certas) pode-se propagar a todas 
as saídas futuras. Isto é, a saída do decodificador pode-se 
tornar instável. A restrição de que a Equação 8.2-52 seja 
menor que 1 confirma o impacto de um erro de entrada 
a um pequeno número de saídas. 


= 
Exemplo 8.24 Comparação de técnicas de previsão. 


Vejamos o erro de previsão que resulta da codificação 
DPCM da imagem monocromática da Figura 8.9(a) sob a 
premissa de erro zero de quantização e com cada um dos 
quatro previsores: 


flx, y) =0,97flx, y—1) (8.2-53) 
fix, y)=0,5f(x, y—1)+0,5f(x—1, y) (8.2-54) 
fix, y)=0,75f(x, y—1)+0,75f(x-L, y)— 

0,5f(x -L, y—1) (8.2-55) 
x, j= 0,97 f(x, y—1) se Ah < Av (82:56) 


~ |0,97f(x, y—1) caso contrário 


em que Ah = /f(x - 1, y) -fix — 1,y — 1)/ e Av = /flx, y- 1) 
—f(x — 1, y — 1)/ e indicam os gradientes horizontal e vertical 
no ponto (x, y). As equações 8.2-53 a 8.2-56 definem um 
conjunto relativamente robusto de a, que proporciona um 
desempenho satisfatório para um grande conjunto de ima- 
gens. O previsor adaptativo da Equação 8.2-56 foi projetado 
para melhorar a representação de bordas por meio do cálcu- 
lo de uma medida local das propriedades direcionais de uma 
imagem (Ah e Av) e da seleção de um previsor específico 
apropriado para o comportamento medido. 


As figuras 8.43(a) até d mostram as imagens de erro 
de previsão que resultam da utilização dos previsores das 
equações 8.2-53 a 8.2-56. Observe que o erro visualmente 
perceptível diminui à medida que a ordem do previsor au- 
menta.” Os desvios padrão das distribuições do erro de previ- 
são seguem um padrão similar. São eles 11,1; 9,8; 9,1; e 9,7 
níveis de intensidade, respectivamente. 

E 


Quantização ótima 

A função escada de quantização t = q(s) da Figura 8.44 
é uma função ímpar de s [isto é, q(-s) = —q(s)] que pode 
ser completamente descrita pelos L/2 valores de s, e t, 
mostrados no primeiro quadrante do gráfico. Esses pon- 
tos de quebra definem as descontinuidades da função e 


* 


Previsores que utilizam mais de trés ou quatro pixels anteriores 
proporcionam pouco ganho de compressão em relação ao au- 
mento de complexidade do previsor [Habibi (1971)]. 


a b 
c d 


Figura 8.43 Uma comparação de quatro técnicas de previsão linear. 


são chamados níveis de decisão e reconstrução do quantiza- 
dor. Para fins de convenção, considera-se que s seja ma- 
peado em ż, caso estiver no intervalo semiaberto (s, s, |]. 

O problema de projeto do quantizador é selecionar os 
melhores s, e t, em relação a um critério particular de oti- 
mização e de uma função densidade de probabilidade de 
entrada p(s). Se o critério de otimização, que pode ser uma 
medida estatística ou psicovisual,” for a minimização do 
erro médio quadrático de quantização (isto é, E{(s, — 1)3) e 


S—((L/2)-1] 


i S2 S/2)-1 

I Entrada 
| 

| 

| 

1 


=p 


Figura 8.44 Uma função de quantização típica. 


“ Veja Netravali (1977) e Limb e Rubinstein (1978) para saber mais 
sobre medidas psicovisuais. 


p(s) for uma função par, as condições para o erro mínimo 
[Max (1960)] são 


| E 
Piast )elsyds i=1,2 > (82:57) 
0 i=0 
tt, 
s=;"" i=12, i 
2 
oo jaa (8.2-58) 
3 
e 
s,=—s, L,=-t, (8.2-59) 


A Equação 8.2-57 indica que os níveis de reconstru- 
ção são centroides de áreas sob p(s) sobre os intervalos de 
decisão específicos, ao passo que a Equação 8.2-58 indica 
que os níveis de decisão estão a meio caminho entre os 
níveis de reconstrução. A Equação 8.2-59 é uma conse- 
quéncia do fato de q ser uma função ímpar. Para qualquer 
L, os s, e os t, que satisfazem as equações 8.2-57 a 8.2-59 
são ótimos no sentido do erro médio quadrático; o quan- 
tizador correspondente é chamado quantizador Lloyd-Max 
de nivel L. 


A Tabela 8.12 lista os níveis de decisão e recons- 
trução de Lloyd-Max de níveis 2, 4 e 8 para uma fun- 
ção densidade de probabilidade laplaciana de variância 
unitária (veja a Equação 8.2-35). Pelo fato de ser difícil 
obter uma solução explícita ou fechada para as equações 
8.2-57 a 8.2-59 para a maioria dos p(s) não triviais, esses 
valores foram gerados numericamente [Paez e Glisson 
(1972)]. Os três quantizadores mostrados proporcionam 
taxas fixas de saída de 1, 2 e 3 bits/pixel, respectivamen- 
te. Como a Tabela 8.12 foi construída para uma distri- 
buição de variância unitária, os níveis de reconstrução e 
decisão para o caso de o = 1 são obtidos multiplicando-se 
os valores tabulados pelo desvio padrão da função densi- 
dade de probabilidade em análise. A linha final da tabela 
lista o tamanho do passo, 0, que satisfaz simultaneamente 
as equações 8.2-57 a 8.5-59 e a restrição adicional 

t>1,=85,—8,,=0 


—t (8.2-60) 
Se um codificador de símbolos que utiliza um códi- 
go de tamanho variável for utilizado pelo codificador pre- 
ditivo com perda geral da Figura 8.41 (a), um quantizador 
uniforme ótimo de tamanho de passo @ proporcionará uma 
taxa de código mais baixa (para um PDF laplaciano) que 
o quantizador de Lloyd-Max codificado com tamanho 
fixo com a mesma fidelidade de saída [O'Neil (1971)]. 
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Tabela 8.12 Quantizadores de Lloyd-Max para uma função densi- 
dade de probabilidade laplaciana de variância unitária. 


Níveis 2 4 8 


! 8, S; t 

1 0,222 
2 09 1,810 | 1,181 0,785 
3 2,285 | 1,976 
4 00 2,994 
0 1,414 1,087 0,731 


Apesar de os quantizadores de Lloyd-Max e o uni- 
forme ótimo não serem adaptativos, é muito proveitoso 
ajustar os níveis de quantização com base no comporta- 
mento local de uma imagem. Teoricamente, regiões de 
mudança lenta podem ser quantizadas com alta qualida- 
de, ao passo que as áreas de mudanças rápidas são quan- 
tizadas de forma mais grosseira. Essa abordagem reduz 
simultaneamente tanto o ruído granular quanto a sobre- 
carga de inclinação (slope overload), ao mesmo tempo que 
requer um aumento mínimo da taxa de codificação. O 
preço que se paga é maior complexidade do quantizador. 


8.2.10 Codificação wavelet 


Como no caso das técnicas de codificação por trans- 
formada da Seção 8.2.8, a codificação wavelet’ se baseia 
na ideia de que os coeficientes de uma transformada que 
descorrelaciona os pixels de uma imagem podem ser co- 
dificados com mais eficácia do que os próprios pixels ori- 
ginais. Se as funções de base da transformada — nesse 
caso, as wavelets — comprimirem a maior parte das infor- 
mações visuais importantes em um pequeno número de 
coeficientes, os coeficientes restantes podem ser quanti- 
zados de forma grosseira ou truncados em zero com pou- 
ca distorção da imagem.” 


A Figura 8.45 mostra um sistema típico de codifi- 
cacao wavelet. Para codificar uma imagem 2” x 2”, uma 
wavelet de análise, 1), e um nível mínimo de decompo- 
sição, J — P, são selecionados e utilizados para calcular a 
transformada wavelet discreta da imagem. Se a wavelet 
apresentar uma função complementar de escala, y, a 
transformada rápida de wavelet (veja as seções 7.4 e 7.5) 
pode ser utilizada. Em qualquer caso, a transformada 
calculada converte uma grande porção da imagem ori- 
ginal em coeficientes de decomposição horizontal, verti- 
cal e diagonal com média zero e probabilidades similares 
às laplacianas. Lembre-se da imagem da Figura 7.1 e as 


* Em relação às tabelas 8.3 e 8.4, a codificação wavelet é utilizada no 
padrão de compressão JPEG-2000. 
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Imagem Transformada Quantizador Codificador Imagem 
de entrada wavelet de símbolos comprimida 
Imagem Decodificador Transformada Imagem 
comprimida de símbolos wavelet inversa descomprimida 


Figura 8.45 Um sistema de codificação wavelet. (a) codificador; (b) decodificador. 


estatísticas muito mais simples de sua transformada wave- 
let na Figura 7.10(a). Como muitos dos coeficientes calcu- 
lados carregam poucas informações visuais, eles podem 
ser quantizados e codificados para minimizar a redun- 
dância de codificação e entre os coeficientes. Além disso, 
a quantização pode ser adaptada para explorar qualquer 
correlação de posição nos níveis de decomposição P. Um 
ou mais métodos de codificação sem perda, como a co- 
dificação run-length, codificação de Huffman, aritmética 
e por planos de bits, podem ser incorporados ao passo 
final da codificação de símbolos. A decodificação é rea- 
lizada invertendo-se as operações de codificação — com 
exceção da quantização, que não pode ser revertida com 
precisão. 

A principal diferença entre o sistema baseado em 
wavelets da Figura 8.45 e o sistema de codificação por 
transformada da Figura 8.21 é a omissão dos estágios de 
processamento de subimagens do codificador por trans- 
formada. Como as transformadas wavelet são ao mesmo 
tempo eficientes em termos computacionais e inerente- 
mente locais (isto é, suas funções de base têm duração li- 
mitada), a subdivisão da imagem original é desnecessária. 
Como você verá adiante nesta seção, a remoção do passo 
de subdivisão elimina os artefatos de bloco que caracte- 
rizam as aproximações baseadas em DCT com altas taxas 
de compressão. 


Seleção das wavelets 


As wavelets escolhidas como a base para as trans- 
formadas direta e inversa na Figura 8.45 afetam todos 
os aspectos do projeto e do desempenho do sistema de 
codificação wavelet. Eles provocam um impacto direto na 
complexidade computacional das transformadas e, de 
forma menos direta, na capacidade do sistema de com- 
primir e reconstruir imagens dentro de um erro aceitá- 
vel. Quando a wavelet de transformação tem uma fun- 
ção de ajuste que a acompanha, a transformação pode 
ser implementada como uma sequência de operações de 
filtragem digital, com o número de taps do filtro igual ao 
número de coeficientes do vetor de escala e das wavelets 


diferentes de zero. A capacidade de a wavelet comprimir 
informações em um pequeno número de coeficientes da 
transformada determina seu desempenho na compressão 
e na reconstrução. 


As funções de expansão mais amplamente utilizadas 
para a compressão baseada em wavelets são as wavelets de 
Daubechies e as wavelets biortogonais. Essas últimas pos- 
sibilitam incorporar propriedades úteis de análise, como 
o número de momentos zero (veja a Seção 7.5), aos fil- 
tros de decomposição, enquanto importantes proprieda- 
des de síntese, como a suavidade da reconstrução, são 
incorporadas aos filtros de reconstrução. 


= 
Exemplo 8.25 Bases de wavelets na codificação 
wavelet. 


A Figura 8.46 contém quatro transformadas wavelet 
discretas da Figura 8.9(a). As wavelets de Haar, que sao as wa- 
velets mais simples e as únicas descontinuas analisadas neste 
exemplo, foram utilizadas como funções de expansão ou de 
base na Figura 8.46(a). As wavelets de Daubechies, que estão 
entre as wavelets mais populares para imagens, foram utiliza- 
das na Figura 8.46(b), e as symlets, que são uma extensão das 
wavelets de Daubechies com maior simetria, foram utilizadas 
na Figura 8.46(c). As wavelets de Cohen-Daubechies Feau- 
veau que foram empregadas na Figura 8.46(d) foram incluí- 
das para ilustrar os recursos das wavelets biortogonais. Como 
nos resultados anteriores desse tipo, todos os coeficientes 
de detalhes foram ajustados para que a estrutura resultante 
seja mais visível — com intensidade 128 correspondendo ao 
coeficiente de valor 0.” 


Como podemos ver na Tabela 8.13, o número de 
operações envolvidas no cálculo das transformadas da 
Figura 8.46 aumenta de 4 para 28 multiplicações e adições 
por coeficiente (para cada nível de decomposição) à medi- 
da que passamos da Figura 8.46(a) até a (d). Todas as qua- 
tro transformadas foram calculadas utilizando-se a trans- 
formada rápida de wavelet (isto é, a formulação de banco 
de filtros). Observe que, à medida que a complexidade 
computacional (isto é, o número de taps do filtro) aumen- 


* Na filtragem digital, cada tap do filtro multiplica um coeficiente 
do filtro por uma versão atrasada do sinal que está sendo filtrado. 


** Os coeficientes de detalhes da DWT são discutidos na Seção 7.3.2. 


Figura 8.46 Transformadas wavelet da Figura 8.9(a) em três esca- 
las utilizando: (a) wavelets de Haar; (b) wavelets de Daubechies; (c) 
symlets; e (d) wavelets biortogonais de Cohen-Daubechies Feauveau. 


ta, o desempenho da compressão das informações também 
aumenta. Quando as wavelets de Haar são empregadas e os 
coeficientes de detalhes abaixo de 1,5 são truncados em 
zero, 33,8% da transformada total é zerada. Com as wave- 
lets biortogonais mais complexas, o número de coeficientes 
zerados sobe para 42,1%, aumentando o potencial da com- 
pressão em quase 10%. 

= 


Seleção do nível de decomposição 


Outro fator que afeta a complexidade computacio- 
nal da codificação wavelet e o erro de reconstrução é o nú- 
mero de níveis de decomposição da transformada. Como 
uma transformada rápida de wavelet de escala P envolve 
iterações de P bancos de filtros, o número de operações 
no cálculo das transformadas direta e inversa aumenta 


Tabela 8.13 Japs do filtro da transformada wavelet e coeficientes 
zerados ao truncar as transformadas da Figura 8.46 


abaixo de 1,5. 
Taps do filtro Coeficientes 
Wavelet (escala + wavelet} zerados 
Haar (veja o Exemplo 7.10) 2+2 33,8% 
Daubechies [veja a Figura 7.8) 8+8 40,9% 
Symlet (veja a Figura 7.26) 8+8 41,2% 
Biortogonal (veja a Figura 7.39) 7+1 42,1% 
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com o número de níveis de decomposição. Além disso, 
mais níveis de decomposição implicam quantizar um nú- 
mero maior de coeficientes de escalas mais baixas e isso 
gera um aumento no número de áreas maiores da ima- 
gem reconstruída. Em muitas aplicações, como na busca 
em banco de imagens ou na transmissão de imagens para 
reconstrução progressiva, a resolução das imagens arma- 
zenadas ou transmitidas e a escala das aproximações com 
menos informações úteis normalmente definem o núme- 
ro de níveis da transformada. 


= 
Exemplo 8.26 Níveis de decomposição na codificação 
wavelet. 

A Tabela 8.14 ilustra o efeito da seleção do nivel de de- 
composição na codificação da imagem da Figura 8.9(a) uti- 
lizando wavelets biortogonais e um limiar global fixo de 25. 
Como no exemplo anterior de codificação wavelet, somente 
os coeficientes de detalhes são truncados. A tabela mostra 
tanto a porcentagem de coeficientes zerados quanto os erros de 
reconstrução rms resultantes calculados pela Equação 8.1-10. 
Observe que as decomposições iniciais são responsáveis pela 
maior parte da compressão de dados. Há pouca alteração 
no número de coeficientes truncados acima de três níveis 
de decomposição. 

a 


Projeto do quantizador 


O fator mais importante que afeta o erro de recons- 
trução e a compressão da codificação wavelet é a quanti- 
zação dos coeficientes. Apesar de os quantizadores mais 
amplamente utilizados serem uniformes, a eficácia da 
quantização pode ser significativamente melhorada (1) 
introduzindo um intervalo de quantização maior ao re- 
dor de zero, chamado zona morta, ou (2) adaptando o 
tamanho do intervalo de quantização de uma escala à 
outra. Em qualquer caso, os intervalos de quantização se- 
lecionados devem ser transmitidos ao decodificador com 


Tabela 8.14 Impacto do nível de decomposição na codificação 
wavelet da imagem 512 x 512 da Figura 8.9(a). 
Nível de 
decomposição 
(escalas ou itera- | Imagemdo | Coeficientes Erro de 
ções do banco de | coeficiente de | truncados |reconstrução 
filtros) aproximação (%) (rms) 
1 256 x 256 74,7% 3,27 
2 128 x 128 91,7% 4,23 
3 64 x 64 95,1% 4,54 
4 32 x 32 95,6% 461 
5 16 x 16 95,5% 4,63 
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a sequência de bits da imagem codificada. Os próprios 
intervalos podem ser determinados heuristicamente ou 
calculados automaticamente com base na imagem que 
está sendo comprimida. Por exemplo, um limiar de coefi- 
ciente global poderia ser calculado como a mediana dos 
valores absolutos dos coeficientes de detalhes do primeiro 
nível ou como uma função do número de zeros que são 
truncados e a quantidade de energia retida na imagem 
reconstruída.” 


= 
Exemplo 8.27 Seleção do intervalo da zona morta na 
codificação wavelet. 


A Figura 8.47 ilustra o impacto do tamanho do in- 
tervalo de zona morta na porcentagem de coeficientes de 
detalhes truncados para uma codificação de três escalas da 
Figura 8.9(a) utilizando wavelet biortogonal. À medida que o 
tamanho da zona morta aumenta, o número de coeficientes 
truncados também aumenta. Acima do “joelho” da curva 
(isto é, valor de limiar maior que 5) há pouco ganho. Isso 
ocorre porque o histograma dos coeficientes de detalhes 
atinge um valor de pico bem alto ao redor de zero (veja, por 
exemplo, a Figura 7.10). 


Os erros de reconstrução rms correspondentes aos li- 
miares de zona morta na Figura 8.47 aumentam de 0 para 
1,94 nível de intensidade para um limiar de 5 e para 3,83 
níveis de intensidade para um limiar de 18, no qual o nú- 
mero de zeros chega a 93,85%. Se todos os coeficientes de 
detalhes fossem eliminados, essa porcentagem aumentaria 
para cerca de 97,92% (um aumento de aproximadamente 
4%), mas o erro de reconstrução aumentaria para 12,3 ní- 
veis de intensidade. 
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Figura 8.47 Impacto da seleção do intervalo da zona morta na co- 
dificação wavelet. 


Uma medida da energia de um sinal digital é a soma das amostras 
ao quadrado. 


JPEG-2000 


O JPEG-2000 estende o popular padrão JPEG para 
proporcionar maior flexibilidade tanto à compressão de 
imagens estáticas de tom contínuo quanto ao acesso aos 
dados comprimidos. Por exemplo, partes de uma imagem 
comprimida pelo padrão JPEG-2000 podem ser extraídas 
para a retransmissão, armazenamento, exibição e/ou edi- 
ção. O padrão se baseia nas técnicas de codificação wavelet 
que acabamos de descrever. A quantização de coeficien- 
tes é adaptada a escalas e sub-bandas individuais e os 
coeficientes quantizados são aritmeticamente codificados 
com base em planos de bits (veja as seções 8.2.3 e 8.2.7). 
Utilizando a notação do padrão, uma imagem é codifica- 
da como se segue [ISO/IEC (2000)]. 


O primeiro passo do processo de codificação é deslo- 
car Ssiz o nível DC das amostras da imagem sem sinal de 
bits que está sendo codificada, subtraindo-se 2%!” Se a 
imagem tiver mais de um componente — como os planos 
vermelho, verde e azul de uma imagem colorida — cada 
componente é deslocado individualmente. Se houver 
exatamente três componentes, eles podem ser opcional- 
mente descorrelacionados utilizando-se uma combina- 
ção linear reversível ou não reversível dos componentes. 
A transformada irreversível de componentes do padrão, por 


exemplo, é” 


Y (x, y)= 0,2991 (x, y)+ 0,5871 (x,y) +0,1141 (x,7) 
Y (x,y) = —0,168751, (x, y) — 0,3312617 (x,y) + 0,51 (x,y) 


Y,(1,))=—0,51,(x,9)— 0,4186917 (x,y) —0,081311, (x,y) 


(8.2-61) 


nas quais 1, I, e Z são os componentes de entrada com ní- 
vel deslocado e Y, Y, e Y, são os componentes descorrela- 
cionados correspondentes. Se os componentes de entrada 
são os planos vermelho, verde e azul de uma imagem 
colorida, a Equação 8.2-61 aproxima R'G'B' à transforma- 
da de video colorido Y'C,C [Poynton (1996)]."~ A meta da 
transformação é melhorar a eficiência da compressão; os 
componentes transformados Y, e Y, são imagens de diferen- 


ça cujos histogramas atingem alto pico ao redor de zero. 


Depois que a imagem teve os níveis deslocados e 
foi opcionalmente descorrelacionada, seus componentes 
podem ser divididos em janelas (tiles). Tiles são arranjos 


* Ssiz é utilizado no padrão para indicar a resolução de intensidade. 


“™ A transformada irreversível de componentes é a transformada de 
componentes utilizada para a compressão com perdas. A transfor- 
mada de componentes em si não é irreversível. Uma transformada 
de componentes diferente é utilizada para a compressão reversível. 


*““R’G’B’ é uma versão não linear e com a correção gama de um va- 
lor de colorimetria RGB linear da CIE (International Commission 
on Illumination). Y’ indica luminância e C, e C indicam diferen- 
ças de cor (isto é, valores ajustados B’ — Y’ e R’- Y’). 


matriciais retangulares de pixels que são processados in- 
dependentemente. Como uma imagem pode ter mais de 
um componente (por exemplo, ela poderia ser composta 
por três componentes de cor), o processo de janelamento 
cria componentes de janela. Cada componente de janela 
pode ser reconstruído independentemente, fornecendo 
um mecanismo simples de acessar e/ou manipular uma 
região limitada de uma imagem codificada. Por exemplo, 
uma imagem com uma razão de aspecto de 16:9 poderia 
ser subdividida em janelas de forma que uma delas seja 
uma subimagem com uma razão de aspecto de 4:3. Essa 
janela poderia então ser reconstruída sem acessar as ou- 
tras janelas na imagem comprimida. Se a imagem não for 
subdividida em janelas, ela é uma janela única. 


A transformada wavelet discreta 1-D das linhas e 
colunas de cada componente de janela é, então, calcu- 
lada. Para a compressão livre de erros, a transformada 
se baseia em vetores de escala e wavelet biortogonais de 
5 e 3 coeficientes, respectivamente [Le Gall e Tabatabai 
(1988)]. Um procedimento de arredondamento é de- 
finido para coeficientes da transformada de valor não 
inteiro. Em aplicações com perda, vetores de escala e 
wavelet de 9 e 7 coeficientes, respectivamente [Antonini, 
Barlaud, Mathieu e Daubechies (1992)] são empregados. 
Em qualquer caso, a transformada é calculada utilizando- 
-se a transformada rápida de wavelet da Seção 7.4 ou por 
meio de uma abordagem complementar baseada em lifting 
[Mallat (1999)]." Por exemplo, em aplicações com per- 
das, os coeficientes utilizados para construir o banco de 
filtros de análise FWT 9-7 (ou seja, com nove coeficientes 
de escala e sete coeficientes wavelets) são dados na Tabela 
8.15. A implementação complementar baseada em lifting 
envolve seis operações sequenciais de “lifting” e “escala”: 


Y(2n+1)= X(2n+1)+a[X(2n)+ 


X(2n+2)], i —-3<2n+1<i +3 
Y(2n) = X(2n)+ BIY (2n—1)+ 

Y(2n+1)], i,-2<2n<i,+2 

¥ (2n+1)=Y¥(2n+1)+>[¥ (2n)+ 
Y(2n+2)], i,—-1<2n+1<i,+1 
Y (2n) =¥ (2n)+ S[¥(2n—1) + Y(2n+)], i, <2n<i, 
Y(2n+1)=—KY(2n+)), i, <2ntl<i, 
Y (2n) =¥(2n)/K, i, <an<i, 
(8.2-62) 


* Implementações baseadas em lifting constituem outra forma de 
calcular transformadas wavelet. Os coeficientes utilizados nessa 
técnica são diretamente relacionados aos coeficientes do banco 
de filtros da FWT. 
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Tabela 8.15 Respostas ao impulso dos filtros de análise passa- 
baixa e passa-alta para uma transformada wavelet 
irreversível 9-7 (nove coeficientes de escala e sete 
coeficientes wavelet). 


Tapdo | Coeficiente de wavelet Coeficiente de escala 
filtro passa-alta passa-baixa 

0 —1,115087052456994 0,6029490182363579 
+1 0,5912717631142470 0,2668641 184428723 
+2 0,05754352622849957 —0,07822326652898785 
+3 —0,0912717631 1424948 —0,0168641 1844287495 
+4 0 0,02674875741080976 


Nesse caso, X é o componente de janela que esta 
sendo transformado, Y é a transformada resultante e i, e 7, 
definem a posição do componente de janela dentro de um 
componente. Isto é, eles são índices da primeira amostra 
da linha ou da coluna do componente de janela que está 
sendo transformado e o que se segue imediatamente após 
a última amostra. A variável n assume valores baseados 
em 1, i e em uma das seis operações que está sendo reali- 
zada. Se n <i, oun > 1, X(n) é obtido expandindo X sime- 
tricamente. Por exemplo, X(i, — 1) = X(i + 1), X(i, — 2) = 
X(i, + 2), X(i,) = Xi, — 2) e X(i, + 1) = Xi, — 3). No final 
das operações de lifting e de escala, os valores de Y com 
índice par equivalem à saída da FWT filtrada pelo filtro 
passa-baixa; os valores de Y com índice impar correspon- 
dem ao resultado filtrado da FWT por um filtro passa- 
-alta. Os parâmetros de lifting a, 3, ye 6 são -1,586134342, 
-0,052980118, 0,882911075 e 0,433506852, respectiva- 
mente. O fator de escala K é 1,230174105.* 


A transformação que acabamos de descrever pro- 
duz quatro sub-bandas — uma aproximação de baixa 
resolução do componente de janela e as características 
de frequências horizontal, vertical e diagonal do compo- 
nente.” Repetir a transformação N, vezes, com iterações 
subsequentes restritas aos coeficientes de aproximação 
da decomposição anterior produz uma transformada 
wavelet de N, escalas. Escalas adjacentes se relacionam no 
espaço por potências de 2 e a escala mais baixa contém 
a única aproximação explicitamente definida do compo- 
nente de janela original. Como podemos supor a partir 
da Figura 8.48, na qual a notação do padrão JPEG-2000 é 
resumida para o caso de N, = 2, uma transformada geral 
de N, escalas contém 3N, + 1 sub-bandas cujos coeficien- 
tes são expressos como a,, para b = N LL, N HL, ..., LHL, 
1LH, 1HH. O padrão não especifica o número de escalas 
a serem calculadas.” 


“ Esses coeficientes baseados em lifting são especificados no padrão. 

“ Lembre-se, do Capítulo 7, que a DWT decompõe uma imagem 
em um conjunto de componentes de banda limitada chamados 
sub-bandas. 
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Figura 8.48 Ganho de análise e notação dos coeficientes do com- 
ponente de janela da transformada wavelet de duas escalas para o 
padrão JPEG 2000. 


Quando todos os componentes de janela forem pro- 
cessados, o número total dos coeficientes da transforma- 
da é igual ao número de amostras da imagem original — 
mas a informação visual importante se concentra em 
alguns poucos coeficientes. Para reduzir o número de 
bits necessário para representar a transformada, o coefi- 
ciente a,(u, v) da sub-banda b é quantizado para o valor 
qu, v) utilizando 


«la,(u,0)| 
q, (u,v) = sinal[a (u,v): floor aoe (8.2-63) 
b 
em que o tamanho do passo da quantização Ab é 
A = [14 ta] (8.2-64) 
b 2! : 


R, é a faixa dinâmica nominal da sub-banda b, e €, e p, 
são, respectivamente, o número de bits alocados para o 
expoente e para a mantissa dos coeficientes da sub-banda.” 
A faixa dinâmica nominal da sub-banda b é a soma do 
número de bits utilizados para representar a imagem ori- 
ginal com os bits do ganho de análise para a sub-banda b. 
Os bits do ganho de análise da sub-banda seguem o pa- 
drão simples mostrado na Figura 8.48. Por exemplo, há 
dois bits de ganho de análise para a sub-banda b = 1HH. 


Para a compressão livre de erros, u, = 0, R,=c,e Ab=1. 
Para a compressão irreversível, nenhum tamanho especí- 
fico de passo de quantização é especificado no padrão. Em 
vez disso, os números dos bits do expoente e da mantis- 
sa devem ser informados ao decodificador para todas as 


* O operador floor retorna o maior inteiro que seja menor que o 
argumento, ou seja, arredonda o valor da função para baixo. 

“ Não confunda a definição do padrão para a faixa dinâmica nomi- 
nal com a definição similar do Capítulo 2. 


sub-bandas, chamadas expounded quantization (“quan- 
tização expoente”), ou somente para a sub-banda N LL, 
denominada derived quantization (“quantização deduzi- 
da”). No último caso, as sub-bandas restantes são quan- 
tizadas extrapolando os parâmetros da sub-banda N LL. 
Sendo £, e u, O número de bits alocados para a sub-banda 
N_LL, os parâmetros extrapolados para a sub-banda b são 


Hy, = Ho 

E Rg (8.2-65) 
em que n, denota o numero de níveis de decomposição 
utilizado da sub-banda do componente de janela da ima- 
gem original até a sub-banda b. 


Nos passos finais do processo de codificação, os coe- 
ficientes de cada sub-banda do componente de janela 
transformado são arranjados em blocos retangulares cha- 
mados blocos de código, que são individualmente codifica- 
dos, um plano de bits por vez. A começar do plano de bits 
mais significativo com um elemento não nulo, cada pla- 
no de bits é processado em três passes. Cada bit (em um 
plano de bits) é codificado em apenas um dos três passes, 
conhecidos como propagação de significância, refinamento de 
magnitude e limpeza. Os resultados são, então, aritmetica- 
mente codificados e agrupados com passes similares de 
outros blocos de código para formar camadas. Uma cama- 
da é um número arbitrário de agrupamentos de passes de 
codificação de cada bloco de código. As camadas resul- 
tantes são, por fim, particionadas em pacotes, proporcio- 
nando um método adicional de extração de uma região 
espacial de interesse da sequência total de código. Os pa- 
cotes constituem a unidade fundamental da sequência de 
código codificada. 


Os decodificadores JPEG-2000 simplesmente inver- 
tem as operações descritas anteriormente. Após recons- 
truir as sub-bandas dos componentes de janela a partir 
dos pacotes JPEG-2000 aritmeticamente codificados, um 
número de sub-bandas selecionado pelo usuário é deco- 
dificado. Embora o codificador possa ter codificado M, 
planos de bits para uma sub-banda específica, o usuá- 
rio — em razão da natureza integrada da sequência de 
código — pode escolher decodificar apenas N, planos de 
bits. Isso equivale a quantizar os coeficientes do bloco de 
código utilizando um tamanho de passo de 2“. A, 
Quaisquer bits não decodificados são zerados e os coefi- 
cientes resultantes, indicados por 4,(u,v), são inversa- 
mente quantizados usando” 


A quantização definida neste capítulo é irreversível. O termo 
“quantização inversa” não significa que não há perda de infor- 
mação. Esse processo apresenta perdas, exceto no caso de com- 
pressão JPEG-2000 reversível, na qual ju, = 0, R,=c,eAb=1. 


(G,(u,v) +r 2"). A, G,(u,v) >0 

R (u,v) = (gu, v= 1-2 NO) AF (u,v) <0 
0 

(8.2-66) 


em que RU, v) indica um coeficiente da transformada 
de quantização inversa e N,(u, v) é o número de planos 
de bits decodificados para q,(u,v). O parâmetro de recons- 
trução r é escolhido pelo decodificador para produzir a 
melhor qualidade visual ou objetiva de reconstrução. Em 
geral, 0 < r < 1, com um valor comum sendo r = 1/2. 
Os coeficientes da quantização inversa são submetidos à 
transformação inversa por coluna e por linha utilizando 
um banco de filtros FWT? cujos coeficientes são obtidos 
a partir da Tabela 8.15 e da Equação 7.1-10, ou por meio 
das seguintes operações baseadas em lifting: 


X(2n)= K-Y(2n), i, 3<2n<i,+3 
X(2n+1)= x(—VK)-Y(2n +), i, 2<2n-1<i +2 
X(2n) = X(2n)— 6[X(2n— 1) + 
X(2n+1)], i, -—3<2n<i, +3 
X(2n+1)= X(2n+1)— y[X(2n)+ 
X(2n+2)], i, —2<2n+1<i,+2 
X(2n) = X(2n)— BLX(2n — D+ 
X(2n+1)] i, -l<2n<i,+1 
X(2n+1)= X(2n+1)— aL X(2n) + 
X(2n+2)], i, <2n+1<i, 
(8.2-67) 


em que os parâmetros a, p, y, 6e K são os mesmos defini- 
dos para a Equação 8.2-62. O elemento Y(n) de linha ou 
de coluna do coeficiente de quantização inversa é simetri- 
camente expandido quando necessário. Os passos finais 
de decodificação são a montagem dos componentes de 
janela, a transformação inversa dos componentes (se ne- 
cessário) e o deslocamento de nível DC. Para a codificação 
irreversível, a transformação inversa de componente é 


I(x, Y) = Y,(x,y)+ 1,402Y, (x,y) 


—0,34413Y, (x, y)—0,71414Y, (x,y) 
L(x, y) = V(X, y)+1,772Y (x,y) 


(8.2-68) 


e os pixels transformados são deslocados em + 28s=-1, 
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= 

Exemplo 8.28 Uma comparação entre a codificação 
JPEG-2000 baseada em wavelete a 
compressão JPEG baseada em DCT. 


A Figura 8.49 mostra quatro aproximações JPEG-2000 
da imagem monocromática na Figura 8.9(a). Linhas suces- 
sivas da figura ilustram níveis crescentes de compressão — 
com C = 25, 52, 75 e 105. As imagens na coluna 1 são co- 
dificações JPEG-2000 descomprimidas. As diferenças entre 
essas imagens e a imagem original [Figura 8.9(a)] são mos- 
tradas na segunda coluna e a terceira coluna contém uma 
porção ampliada das reconstruções da coluna 1. Como as 
taxas de compressão para as duas primeiras linhas são prati- 
camente idênticas às taxas de compressão do Exemplo 8.18, 
esses resultados podem ser comparados — tanto qualitativa 
quanto quantitativamente — com os resultados da compres- 
são JPEG baseada em transformada nas figuras 8.32(a) a (f). 


Uma comparação visual das imagens de erro nas linhas 
1 e 2 da Figura 8.49 com as imagens correspondentes nas 
figuras 8.32(b) até e revela uma redução significativa de erro 
nos resultados do JPEG-2000 — 3,86 e 5,77 níveis de inten- 
sidade em comparação com 5,4 e 10,7 níveis de intensidade 
para os resultados do JPEG. Os erros calculados favorecem 
os resultados baseados em wavelet para ambos os níveis de 
compressão. Além de reduzir o erro de reconstrução, a co- 
dificação wavelet aumentou drasticamente (em termos sub- 
jetivos) a qualidade da imagem. Observe que os artefatos de 
bloco que dominavam os resultados do JPEG [veja as figuras 
8.32(c) e (f)] não estão presentes na Figura 8.49. Por fim, 
notamos que a compressão atingida nas linhas 3 e 4 da 
Figura 8.49 não é viável na prática com o JPEG. O JPEG- 
-2000 proporciona imagens utilizáveis que são comprimidas 
em mais de 100:1 — e a degradação mais indesejada que 
ocorre é um borramento maior da imagem. 
= 


8.3 Marca d'água em imagens digitais 


Os métodos e padrões da Seção 8.2 fazem que a distri- 
buição de imagens (em imagens ou em vídeo) na mídia 
digital e na Internet seja prática. Infelizmente, as ima- 
gens distribuídas dessa forma podem ser repetidamente 
copiadas sem erro, o que coloca em risco os direitos 
de seus proprietários. Mesmo quando encriptadas para 
a distribuição, as imagens ficam desprotegidas depois de 
serem decriptadas. Uma forma de desencorajar a dupli- 
cação ilegal dessas imagens é inserir um ou mais itens 
de informação, coletivamente chamados marca d'água 
(watermark), em imagens potencialmente vulneráveis, 
de forma que as marcas d'água sejam inseparáveis das 
imagens em si. Como partes integrais das imagens com 
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Figura 8.49 Quatro aproximações JPEG-2000 da Figura 8.9a). Cada linha contém um resultado após a compressão e reconstrução, a diferença 
ajustada entre o resultado e a imagem original e uma área ampliada da imagem reconstruída. (Compare os resultados das linhas 1 e 2 com os 


resultados do JPEG da Figura 8.32.) 


marca d'água, elas protegem os direitos dos proprietários 
de várias formas, incluindo: 


1. Identificação de direitos autorais. As marcas d'água 
podem fornecer informações que servem para compro- 
var a propriedade quando os direitos do proprietário 
foram violados. 


. Identificação de usuário. A identidade de usuários le- 


gais pode ser codificada em marcas d'água e utiliza- 
da para identificar fontes de cópias ilegais. 


. Especificação de autenticidade. A presença de uma 


marca d'água pode garantir que a imagem não foi 
alterada — presumindo-se que a marca d'água te- 


nha sido projetada para ser destruída por qualquer 
modificação na imagem. 


4. Monitoramento automatizado. As marcas d'água po- 
dem ser monitoradas por sistemas que rastreiam 
quando e onde as imagens são utilizadas (por exem- 
plo, programas que buscam imagens em páginas da 
web). O monitoramento é útil para cobrar direitos 
autorais e/ou localizar usuários ilegais. 


5. Proteção de cópias. As marcas d'água podem especi- 
ficar regras para a utilização e a cópia de imagens 
(por exemplo, para aparelhos de DVD). 


Nesta seção, apresentamos uma breve visão geral 
das marcas d'água em imagens digitais — o processo de inse- 
rir dados em uma imagem de forma que eles possam ser 
utilizados para especificar algo sobre a imagem. Os mé- 
todos descritos têm pouco em comum com as técnicas de 
compressão apresentadas nas seções anteriores — apesar 
de envolverem a codificação de informações. Na verdade, 
a inserção de marca d'água e a compressão são, em alguns 
aspectos, opostos. Enquanto o objetivo da compressão é 
reduzir o volume de dados utilizados para representar as 
imagens, a meta da marca d'água é acrescentar informa- 
ções e, dessa forma, dados, às imagens. Como veremos 
no restante da seção, as marcas d'água podem ser visíveis 
ou invisíveis. 

Uma marca d'água visível é uma subimagem ou 
imagem opaca ou semitransparente inserida sobre ou- 
tra imagem (isto é, a imagem sendo marcada), de for- 
ma que ela seja evidente ao usuário. Redes de televi- 
são muitas vezes adicionam marcas d'água visíveis (por 
exemplo, seus logos) no canto superior ou inferior di- 


igital Image 
rocessing 


Figura 8.50 Uma marca d'água visível simples. (a) Marca d'água; 
(b) a imagem com marca d'água; e (c) a diferença entre a imagem com 
marca d'água e a imagem original (sem marca d'água). 
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reito da tela de TV. Como o exemplo a seguir ilustra, 
as marcas d'água visíveis normalmente são aplicadas no 
domínio espacial. 


= 
Exemplo 8.29 Uma marca d'água visível simples. 


A imagem da Figura 8.50(b) é o quadrante inferior di- 
reito da imagem na Figura 8.9(a) com uma versão ajustada 
da marca d'água na Figura 8.50(a) sobreposta a ele. Com f, 
indicando a imagem com marca d'água, podemos expressá- 
la como uma combinação linear da imagem não marcada fe 
a marca d'água w utilizando 


fo=(1-a)f+aw (8.3-1) 
em que a constante a controla a visibilidade relativa da mar- 
ca d'água e da imagem básica. Se a for 1, a marca d'água 
é opaca e a imagem-base é completamente suprimida. À 
medida que a se aproxima de 0, mais da imagem base e 
menos da marca d'água são vistos. Em geral, 0 < a < 1; na 
Figura 8.50(b), a = 0,3. A Figura 8.50(c) é a diferença calcu- 
lada (ajustada em intensidade) entre a imagem com marca 
d'água em (b) e a imagem não marcada na Figura 8.9(a). 
A intensidade 128 representa uma diferença de 0. Observe 
que a imagem básica é claramente visível através da marca 
d'água “semitransparente”. Isso fica claro tanto na Figura 
8.50(b) quanto na imagem diferença em (c). 


Diferentemente da marca d'água visível do exemplo 
anterior, marcas d'água invisíveis não podem ser vistas a 
olho nu. Elas são imperceptíveis — mas podem ser recu- 
peradas com um algoritmo de decodificação apropriado. 
A invisibilidade é assegurada inserindo-as como infor- 
mações visualmente redundantes — como informações 
que o sistema visual humano ignora ou não pode perce- 
ber (veja a Seção 8.1.3). A Figura 8.51(a) apresenta um 
exemplo simples. Como os bits menos significativos de 
uma imagem de 8 bits praticamente não têm efeito algum 
sobre a nossa percepção da imagem, a marca d'água da 
Figura 8.50(a) foi inserida ou “oculta” em seus dois bits 
menos significativos. Utilizando a notação apresentada 
assim, temos que 

i= aff = 
4) 64 
e utilizamos a aritmética de numeros inteiros sem sinal 
para realizar os cálculos. Dividir e multiplicar por 4 zera 
os dois bits menos significativos de f, dividir w por 64 des- 
loca seus dois bits mais significativos nas posições dos dois 
bits menos significativos e adicionar os dois resultados 
gera a imagem com marca d'água LSB. Observe que a marca 
d'água incorporada não é visível na Figura 8.51(a). Ao 


(8.3-2) 
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Figura 8.51 


Uma marca d'água invisível simples: (a) imagem com 
marca d'água; (b) a marca d'água extraída; (c) a imagem com marca 
d'água após a compressão e descompressão JPEG de alta qualidade; 
e (d) a marca d'água extraída de (c). 


zerar os 6 bits mais significativos dessa imagem e ajustar 
os valores restantes até o intervalo completo de intensi- 
dade, contudo, a marca d'água pode ser extraída, como 
na Figura 8.51(b). 


Uma importante propriedade de marcas d'água in- 
visíveis é sua resistência a tentativas de removê-las, tanto 
acidentais quanto intencionais. Marcas d'água invisíveis frá- 
geis são destruídas por qualquer modificação das imagens 
nas quais elas são incorporadas. Em algumas aplicações, 


como a autenticação de imagens, esta é uma caracterís- 
tica desejável. Como mostram as figuras 8.51(c) e (d), a 
imagem com marca d'água LSB na Figura 8.51(a) con- 
tém uma marca d'água invisível frágil. Se a imagem em 
(a) for comprimida e descomprimida utilizando o JPEG 
com perda, a marca d'água é destruída. A Figura 8.51(c) 
é o resultado após a compressão e descompressão da 
Figura 8.51(a); o erro rms é de 2,1 bits. Se tentarmos 
extrair a marca d'água dessa imagem utilizando o mesmo 
método que em (b), o resultado é ininteligível [veja a Fi- 
gura 8.51 (d)]. Apesar de a compressão e a descompressão 
com perda preservarem as importantes informações visuais 
da imagem, a marca d'água frágil foi destruída. 


Marcas d'água invisíveis robustas foram projetadas para 
sobreviver a modificações da imagem, sejam os chamados 
ataques acidentais ou intencionais. Ataques acidentais co- 
muns incluem compressão com perda, filtragem linear e 
não linear, recortes, rotação, reamostragem e assim por 
diante. Ataques intencionais variam da impressão e redi- 
gitalização para acrescentar marcas d'água adicionais e/ou 
ruído. Naturalmente, é desnecessário suportar ataques que 
inutilizam a imagem em si. 


A Figura 8.52 mostra os componentes básicos de um 
sistema típico de inserção de marcas d'água em imagens. 
O codificador da Figura 8.52(a) insere a marca d'água w, 
na imagem f produzindo a imagem com marca d'água f ; 
o decodificador complementar em (b) extrai e valida a 
presença de w, em uma entrada com marca d'água fg OU 
na entrada não marcada f. Se w, for visível, o decodifica- 
dor não será necessário. Se for invisível, o decodificador 
pode ou não requerer uma cópia de f, e w, [mostrados em 
cinza na Figura 8.52(b)] para realizar seu trabalho. Se f 
e/ou w forem utilizados, o sistema de inserção de marcas 
d'água é conhecido como um sistema privado, ou restrito 


i 
Imagem ——— 


Inserção fu, 
da marca 


Imagem 
marcada 


E 


Marca d'água 


Imagem 


(marcada ou 
não marcada) 


al gem 


fi Jwi Si EE Wj, Wy 
EE marca 


> Marca dágua 


D = Decisão 
E etecção | “|, (marca detectada 
a marca ou não) 


To, 


Marca d'água 


Figura 8.52 Um sistema típico de inserção de marcas d'água em imagens: (a) codificador; (b) decodificador. 


por chave; se não, trata-se de um sistema público ou não 
restrito. Como o decodificador deve processar tanto ima- 
gens marcadas quanto não marcadas, w, é utilizado na 
Figura 8.52(b) para indicar a ausência de uma marca. Por 
fim, observamos que, para identificar a presença de w em 
uma imagem, o decodificador deve correlacionar a marca 
d'água extraída w, com w, e comparar O resultado com um 
limiar predefinido. O limiar define o grau de semelhança 
aceitável para um “casamento”. 


= 
Exemplo 8.30 Uma marca d'água invisível e robusta 
baseada em DCT. 
A inserção e a extração de marca podem ser realizadas 


no domínio espacial, como nos exemplos anteriores, ou no 
domínio da transformada. As figuras 8.53(a) e (c) mostram 
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duas versões com marca d'água da imagem da Figura 8.9(a) 
utilizando a técnica de inserção de marcas d'água baseada 
em DCT esboçada em seguida [Cox et al. (1997)]: 


Passo 1. Calculamos a DCT 2-D da imagem que será 
marcada com a marca d'água. 


Passo 2. Localizamos seus K maiores coeficientes, Es 


Cy «+» + Cy por magnitude. 


Passo 3. Criamos uma marca d'água gerando uma se- 
quência de números pseudoaleatórios de K elementos, 
Wy Wy Wg retirada de uma distribuição gaussiana 
com média u = 0 e variância o? = 1.º 

Passo 4. Incorporamos a marca d'água do Passo 3 aos 
K maiores coeficientes DCT do Passo 2 utilizando a se- 
guinte equação 


I<i<K 


ci=c (1 + aw) 


(8.3-3) 


Figura 8.53 


(a) e (c) Duas versões da Figura 8.9(a) com marca d'água; (b) e (d) as diferenças (com ajuste de intensidade) entre as versões com 


marca d'água e a imagem não marcada. Essas duas imagens mostram a contribuição em intensidade (apesar do ajuste acentuado) das marcas 


d'água pseudoaleatórias na imagem original. 


* Uma sequência de números pseudoaleatórios se aproxima das propriedades de números aleatórios. Ela não é verdadeiramente aleatória 


porque depende de um valor inicial predeterminado. 
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para uma constante especificada a > 0 (que controla a 
extensão na qual w altera c). Substituímos o original c, 
pelo c’ calculado na Equação 8.3-3.º 


Passo 5. Calculamos a DCT inversa do resultado do 
Passo 4. 


Ao empregar marcas d'água feitas a partir de números 
pseudoaleatórios e espalhá-las em uma imagem, compo- 
nentes de frequência perceptivamente significativos podem 
ser reduzidos, diminuindo a visibilidade da marca d'água. 
Ao mesmo tempo, o nível de segurança da marca d'água se 
mantém alto, pois: (1) as marcas d'água são compostas por 
números pseudoaleatórios sem uma estrutura evidente; (2) 
as marcas d'água são incorporadas a componentes de múl- 
tipla frequência com impacto espacial sobre toda a imagem 
2-D (de forma que sua localização não seja evidente); e (3) 
ataques contra elas tendem a degradar a imagem (isto é, os 
componentes de frequência mais importantes da imagem 
devem ser alterados para afetar as marcas d'água). 


As figuras 8.53(b) e (d) fazem que as mudanças na 
intensidade de imagens resultantes dos números pseudo- 
aleatórios incorporados aos coeficientes DCT das imagens 
com marca d'água nas figuras 8.53(a) e (c) sejam visíveis. 
Naturalmente, os números pseudoaletórios devem ter um 
efeito — mesmo se for pequeno demais para ser visto — 
sobre as imagens com marca d'água. Para exibir o efeito, 
as imagens nas figuras 8.53(a) e (c) tiveram a imagem não 
marcada da Figura 8.9(a) subtraída e tiveram suas intensidades 
reajustadas para o intervalo [0, 255]. As figuras 8.53(b) e 
(d) são as imagens resultantes; elas mostram as contribuições 
espaciais 2-D dos números pseudoaleatórios. Pelo fato de 
as imagens terem sido ajustadas, contudo, não é possível sim- 
plesmente adicionar essas imagens à imagem da Figura 8.9(a) 
e obter as imagens com marca d'água das figuras 8.53(a) e (c). 
Como podemos ver nas figuras 8.53(a) e (c), suas perturba- 
ções de intensidade são entre pequenas e desprezíveis. 


Para saber se determinada imagem é uma cópia de uma 
imagem que antes tinha uma imagem com marca d'água 
Wy Wy. We coeficientes DCT c, ¢,, ..., Cg utilizamos o se- 
guinte procedimento: 


Passo 1. Calculamos a DCT bidimensional da imagem 
em questao. 


Passo 2. Extraimos os K coeficientes da DCT (nas 
posições correspondentes a ¢,, C, ..., Cg do Passo 2 
do procedimento de inserção de marcas d'água) e 
indicamos os coeficientes por €,,C,,...,C, . Se a imagem 
em questão for a imagem submetida anteriormen- 
te à inserção de marcas d'água (sem modificação), 
C =c! paral<i<K. Se for uma cópia modificada 
da imagem com marca d'água (isto é, tiver sido sub- 
metida a algum tipo de ataque), ¢, = c para 1<i< K 
(os C serão as aproximações dos c'). Caso contrário, 
a imagem em questão será uma imagem não marcada 


Para as imagens da Figura 8.53, = 0,1 e K= 1000. 


ou uma imagem com uma marca d'água completa- 
mente diferente — e os ¢, não apresentarão nenhuma 
semelhança com o c’, original. 


Passo 3. Calculamos a marca d'água W,,W,,.., uti- 
lizando 


W,=C,—c, para l<i<K (8.3-4) 


Lembre-se que as marcas d'água são uma sequência de 
números pseudoaleatórios. 


Passo 4. Medimos a similaridade entre ,,W,,...0, 
(do Passo 2) € w,,W,,...W, (do Passo 3 do procedimen- 
to de inserção de marca d'água) utilizando uma métri- 
ca como o coeficiente de correlação” 


DË, —w)(w,— 0) 


y= = 1<i<K (8.3-5) 


na qual we w são as médias das duas marcas d'água 
de K elementos. 
Passo 5. Comparamos a semelhança medida, y, com 
um limiar predefinido, T, e tomamos uma decisão de 
detecção binária 


l sey>T 
p= Yz 


O caso contrário (8.3-6) 


Em outras palavras, D = 1 indica que a marca d'água 
W, Wy. Wp está presente (em relação ao limiar especi- 
ficado, T); D = 0 indica que ela não está presente. 
Utilizando esse procedimento, a imagem original com 
marca d'água da Figura 8.53(a) — medida em compara- 
ção com si mesma — gera um coeficiente de correlação de 
0,9999, isto é, y = 0,9999. Trata-se de um casamento sem 
erros. De forma similar, a imagem da Figura 8.53(b), quan- 
do medida em comparação com a imagem da Figura 8.53 (a), 
resulta em um y de 0,0417 — ela não poderia ser confundi- 
da com a imagem com marca d'água da Figura 8.53(a), pois 


o coeficiente de correlação seria muito baixo. 
E 


Para concluir esta seção, observamos que a técnica 
de inserção de marcas d'água baseada em DCT apresen- 
tada no exemplo anterior é relativamente resistente a 
ataques contra marcas d'água, em parte por ser um mé- 
todo privado ou restrito por chave. Métodos restritos por 
chave são sempre mais resistentes do que seus equiva- 
lentes sem restrição por chave. Utilizando a imagem com 
marca d'água da Figura 8.53(a), a Figura 8.54 ilustra a 
capacidade do método de suportar uma série de ataques 
comuns. Como pode ser visto na figura, a detecção de 


“ O coeficiente de correlação são discutidos na Seção 12.2.1. 
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y = 0,9945 


y = 0,7395 


y = 0,8390 


y = 0,8230 


y = 0,5210 


y = 0,3113 


Figura 8.54 Ataques à imagem com marca d'água da Figura 8.53(a): (a) compressão e descompressão JPEG com perda com um erro rms de 
sete níveis de intensidade; (b) compressão e descompressão JPEG com perda com um erro rms de dez níveis de intensidade (observe o artefato 
de bloco); (c) suavização por filtragem espacial; (d) adição de ruído gaussiano; (e) equalização de histograma; e (f) rotação. Cada imagem é uma 
versão modificada da imagem com marca d'água da Figura 8.53(a). Após a modificação, elas retêm suas marcas d'água em vários graus, como 


indicam os coeficientes de correlação abaixo de cada imagem. 


marcas d'água é relativamente boa no intervalo de ata- 
ques que foram implementados — os coeficientes de cor- 
relação resultantes (mostrados abaixo de cada imagem 
na figura) variam de 0,3113 a 0,9945. Ao ser sujeitada 
à compressão e descompressão JPEG de alta qualidade 
com perda (resultante em um erro rms de sete intensi- 
dades), y = 0,9945. Mesmo quando a compressão e a 
reconstrução resultam em um erro rms de dez níveis de 
intensidade, y = 0,7395 — e o grau de utilidade dessa 
imagem foi significativamente degradado. Uma suaviza- 
ção significativa da filtragem espacial e a adição do ruído 
gaussiano não reduzem o coeficiente de correlação abai- 
xo de 0,8230. No entanto, a equalização de histogramas 
reduz y a 0,5210; e a rotação tem o maior efeito — re- 
duzindo ya 0,3313. Todos os ataques, exceto a compressão 
e a reconstrução JPEG com perda em (a), reduziram 
significativamente o grau de utilidade da imagem origi- 
nal com marca d'água. 


Resumo 


Os principais objetivos deste capítulo foram apre- 
sentar as bases teóricas da compressão digital de imagens, 
descrever os métodos de compressão mais comumente 
utilizados e apresentar a área relacionada da inserção de 
marcas d'água em imagens digitais. Apesar de a apresen- 
tação ser de natureza introdutória, as referências suge- 
ridas proporcionam acesso a um extenso volume de co- 
nhecimento sobre os tópicos discutidos. Como fica claro 
pelos padrões internacionais listados nas tabelas 8.3 e 
8.4, a compressão exerce um importante papel no arma- 
zenamento e na transmissão de imagens documentais, 
na Internet e na distribuição de vídeos comerciais (por 
exemplo, DVDs). Trata-se de uma das poucas áreas do 
processamento de imagens com apelo comercial suficien- 
temente amplo para assegurar a adoção de padrões am- 
plamente aceitos. E a inserção de marcas d'água em ima- 
gens está ganhando importância e cada vez mais imagens 
digitalmente comprimidas são distribuídas. 
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Referências e leituras complementares 


O material introdutório deste capítulo, em grande 
parte apresentado na Seção 8.1, apresenta as bases da 
compressão de imagens e pode ser encontrado de uma 
forma ou de outra na maior parte dos livros sobre pro- 
cessamento de imagens citados no final do Capítulo 1. 
Para informações adicionais sobre o sistema visual hu- 
mano, veja Netravali e Limb (1980), bem como Huang 
(1966), Schreiber e Knapp (1958), e as referências citadas 
no final do Capítulo 2. Para saber mais sobre a teoria da 
informação, veja o site do livro na Internet ou Abramson 
(1963), Blahut (1987) e Berger (1971). O artigo clássico 
de Shannon, “A Mathematical Theory of Communication” 
(1948), constitui as bases para a área e é outra excelente 
referência. Critérios de fidelidade subjetivos são discuti- 
dos em Frendendall e Behrend (1960). 


Ao longo do capítulo, uma série de padrões de com- 
pressão foi utilizada em exemplos. A maioria delas foi im- 
plementada utilizando o Adobe Photoshop (com plug-ins 
de compressão disponíveis gratuitamente) e/ou o Matlab, 
descrito em Gonzalez et al. (2004). Os padrões de com- 
pressão, como regra, são longos e complexos; não tenta- 
mos cobrir plenamente nenhum deles. Para mais infor- 
mações sobre um padrão específico, veja os documentos 
publicados da organização de padrões relevante — a In- 
ternational Standards Organization, a International Elec- 
trotechnical Commission e/ou a International Telecom- 
munications Union. Referências adicionais sobre padrões 
incluem Hunter e Robinson (1980), Ang et al. (1991), 
Fox (1991), Pennebaker e Mitchell (1992), Bhatt et al. 
(1997), Sikora (1997), Bhaskaran e Konstantinos (1997), 
Ngan et al. (1999), Weinberger et al. (2000), Symes 
(2001), Mitchell et al. (1997) e Manjunath et al. (2001). 


As técnicas de compressao com perda e livre de er- 
ros descritas na Seção 8.2 e as técnicas de inserção de 
marcas d'água da Seção 8.3 são, na maior parte, baseadas 
nos artigos originais citados no texto. Os algoritmos apre- 
sentados são representativos do trabalho realizado na 
área, mas estão longe de constituírem uma lista comple- 
ta. O material sobre a codificação LZW tem suas origens 
no trabalho de Ziv e Lempel (1977, 1978). O material 
sobre codificação aritmética segue o desenvolvimento em 
Witten, Neal e Cleary (1987). Uma das mais importantes 
implementações da codificação aritmética é resumida em 
Pennebaker et al. (1988). Para uma boa análise sobre a 
codificação preditiva sem perda, veja o tutorial de Rabbani 
e Jones (1991). O previsor adaptativo da Equação 8.2-56 
é de Graham (1958). Para saber mais sobre compensa- 
ção de movimento, veja S. Solari (1997), que também 
contém uma introdução a padrões gerais de compressão 
e descompressão de vídeos, e Mitchell et al. (1997). A 


técnica de inserção de marcas d'água baseada em DCT 
apresentada na Seção 8.3 se baseia no artigo de Cox et al. 
(1997). Para saber mais sobre marcas d'água, veja os li- 
vros de Cox et al. (2001) e Parhi e Nishitani (1999). Veja 
também o artigo de S. Mohanty (1999). 


Muitos artigos de pesquisas foram dedicados à área 
da compressão de imagens. Destacam-se os artigos de 
Netravali e Limb (1980), A. K. Jain (1981), uma edição 
especial sobre sistemas de comunicação de figuras na 
IEEE Transactions on Communications (1981), uma edição 
especial sobre a codificação de gráficos na Proceedings 
of IEEE (1980), uma edição especial sobre sistemas de 
comunicação visual na Proceedings of the IEEE (1985), 
uma edição especial sobre compressão de sequências de 
imagens na IEEE Transactions on Image Processing (1994) 
e uma edição especial sobre vetores de quantização na 
IEEE Transactions on Image Processing (1996). Além disso, 
a maioria das edições da IEEE Transactions on Image Pro- 
cessing, IEEE Transactions on Circuits and Systems for Video 
Technology e IEEE Transactions on Multimedia inclui artigos 
sobre compressão de vídeos e imagens estáticas, compen- 
sação de movimento e inserção de marcas d'água. Veja, 
por exemplo, Robinson (2006), Chandler e Hemami 
(2005), Yan e Cosman (2003), Boulgouris et al. (2001), 
Martin e Bell (2001), Chen e Wilson (2000), Hartenstein 
et al. (2000), Yang e Ramchandran (2000), Meyer et al. 
(2000), S. Mitra et al. (1998), Mukherjee e Mitra (2003), 
Xu et al. (2005), Rane e Sapiro (2001), Hu et al. (2006), 
Pietal. (2006), Dugelay et al. (2006) e Kamstra e Heijmans 
(2005) para um ponto de partida para leituras adicio- 
nais e referências. 


Exercícios 


8.1 (a) Os procedimentos de codificação de tamanho va- 
riável podem ser utilizados para comprimir uma 
imagem com histograma equalizado com 2” níveis 
de intensidade? Explique. 


(b) Uma imagem como esta pode conter redundâncias 
espaciais e temporais que poderiam ser exploradas 
para a compressão de dados? 


8.2 Uma variação da codificação run-length envolve (1) co- 
dificação apenas das sequências dos O ou 1 (não de am- 
bas) e (2) atribuir um código especial ao início de cada 
linha para reduzir o efeito de erros de transmissão. Um 
possível par código é (x, r,), em que x, e r, representam 
a k-ésima coordenada de início e o k-ésimo run-length, 
respectivamente. O código (0, 0) é utilizado para sina- 
lizar cada nova linha. 


(a) Deduza uma expressão geral para o valor médio 
máximo de sequências por linhas de varredura ne- 
cessárias para assegurar a compressão de dados ao 
submeter uma imagem binária 2” x 2” à codifica- 
ção run-length. 


(b) Calcule o valor máximo permitido para n = 10. 


8.3 Considere uma linha de 8 pixels de dados de inten- 
sidade, (108, 139, 135, 244, 172, 173, 56, 99}. Se ela 
for uniformemente quantizada com precisao de 4 bits, 
calcule o erro rms e o valor rms da relação sinal-ruído 
para os dados quantizados. 


*8.4 Apesar de a quantização resultar em perda de informa- 
ções, ela é por vezes invisível a olho nu. Por exemplo, 
quando pixels de 8 bits são uniformemente quantiza- 
dos a um número menor de bits/pixel, muitas vezes há 
a ocorrência de contorno falso. Ele pode ser reduzido 
ou eliminado utilizando a quantização de escala de cin- 
za melhorada (IGS, do inglés improved gray-scale). Uma 
soma — inicialmente definida em zero — é formada a 
partir do valor de intensidade atual de 8 bits e os quatro 
bits menos significativos da soma previamente gerada. 
Se os quatro bits mais significativos do valor de intensi- 
dade forem 1111,, contudo, 0000, é adicionado em seu 
lugar. Os quatro bits mais significativos da soma resul- 
tante são utilizados como o valor de pixel codificado. 


(a) Construa o código IGS para os dados de intensidade 
do Exercício 8.3. 


(b) Calcule o erro rms e o valor rms da relação sinal- 
ruído dos dados IGS decodificados. 


8.5 Uma imagem 1.024 x 1.024 de 8 bits com entropia de 5,3 
bits/pixel (calculada a partir de seus histogramas utili- 
zando a Equação 8.1-7) deve ser codificada por Huffman. 


(a) Qual é a compressão máxima que pode ser esperada? 
(b) Ela será obtida? 


(c) Se uma taxa maior de compressão sem perda for 
necessária, o que mais pode ser feito? 


*8.6 A unidade de informação de base e é comumente cha- 
mada um nat, e a unidade de informações de base 10 é 
denominada um Hartley. Calcule os fatores de conver- 
são necessários para relacionar essas unidades à unida- 
de de base 2 das informações (o bit). 

*8.7 Demonstre que, para uma fonte de memória zero com 
q símbolos, o valor máximo da entropia é log q, atingi- 
da se, e somente se, todos os símbolos de fonte tiverem 
a mesma probabilidade. [Dica: Considere a quantidade 
log q — H(z) e observe a desigualdade In x < x — 1.] 


8.8 (a) Quantos códigos de Huffman distintos existem 
para uma fonte de três símbolos? 
(b) Construa-os. 
8.9 Considere a imagem simples de 8 bits com dimensao de 
4 x 8 pixels: 


21 21 21 95 169 243 243 243 
21 21 21 95 169 243 243 243 
21 21 21 95 169 243 243 243 
21 21 21 95 169 243 243 243 


(a) Calcule a entropia da imagem. 


(b) Comprima a imagem utilizando a codificação de 
Huffman. 
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(c) Calcule a compressão atingida e a eficácia da codi- 
ficação de Huffman. 


*(d) Considere os pares de pixels de codificação de 
Huffman em vez de pixels individuais. Isto é, con- 
sidere a imagem como tendo sido produzida pela 
segunda extensão da fonte de memória zero que 
produziu a imagem original. Qual é a entropia da 
imagem quando vista como pares de pixels? 


(e) Considere a codificação das diferenças entre pixels 
adjacentes. Qual é a entropia da nova imagem di- 
ferença? O que isso nos informa sobre a compres- 
são da imagem? 

(f) Explique as diferenças de entropia em (a), (d) e (e). 

8.10 Utilizando o código de Huffman na Figura 8.8, decodifi- 

que a sequência codificada 0101000001010111110100. 


8.11 Calcule o código de Golomb G,(n) para 0 <n < 15. 


8.12 Elabore um procedimento geral para decodificar o có- 
digo de Golomb G (n). 


8.13 Por que não é possível calcular o código de Huffman 
dos números inteiros não negativos, n > 0 com a 
função de massa das probabilidades geométricas da 
Equação 8.2-2? 

8.14 Calcule o código de Golomb exponencial G (n) para 
osans 15, 


*8.15 Elabore um procedimento geral para decodificar o có- 
digo de Golomb exponencial GE pl). 


8.16 Trace um gráfico do parâmetro da codificação de Golomb 
ótima m como uma função de p para 0 < p < 1 na 
Equação 8.2-3. 

8.17 Dada uma fonte de quatro símbolos {a, b, c, d} com pro- 
babilidades de fonte {0,1; 0,4; 0,3; 0,2}, codifique arit- 
meticamente a sequência bbadc. 


*8.18 O processo de decodificação aritmética é o inverso do 
procedimento de codificação. Decodifique a mensagem 
0,23355 dado o modelo de codificação 


Probabilidade 
0,2 
0,3 
0,1 
0,2 
0,1 
01 


Símbolo 


—lclol-lo 


8.19 Utilize o algoritmo de codificação LZW da Seção 8.2.4 
para codificar a sequência ASCII de 7 bits “aaaaaaaaaaa”. 


*8.20 Elabore um algoritmo para decodificar a saída codificada 
LZW do Exemplo 8.7. Como o dicionário utilizado du- 
rante a codificação não está disponível, o livro de código 
deve ser reproduzido à medida que a saída é decodificada. 
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8.21 Decodifique a sequência BMP codificada (3, 4, 5, 6,0, 
3, 103, 125, 67,0,2, 47). 


8.22 (a) Construa todo o código Gray de 4 bits. 


(b) Crie um procedimento geral para converter um 
número codificado utilizando o código Gray para 
seu equivalente binário e utilize-o para decodificar 
0111010100111. 


8.23 Utilize o algoritmo de compressão do Grupo 4 CCITT 
para codificar a segunda linha do segmento de duas 
linhas a seguir: 


01100111001111111100001 
11111110001110000111111 


Considere que o elemento de referência inicial a, 
esteja posicionado no primeiro pixel do segundo seg- 
mento de linha. 


*8.24 (a) Relacione todos os membros da categoria 3 de di- 
ferença de coeficiente DC JPEG. 


(b) Calcule seus códigos de Huffman padrão utilizan- 
do a Tabela A.4. 


8.25 Quantas etapas são necessárias para calcular o vetor de 
movimento ótimo de um macrobloco 8 x 8 utilizando o 
critério de otimalidade MAD, precisão de um único pi- 
xel e um deslocamento máximo permitido de 8 pixels? 
Como ele seria para uma precisão de + de pixel? 

8.26 Quais são as vantagens de utilizar B-frames para a com- 
pensação de movimento? 


*8.27 Esboce o diagrama em blocos de um decodificador de 
vídeo por compensação de movimento para ocodifica- 
dor mostrado na Figura 8.39. 

8.28 Uma imagem cuja função de autocorrelação tem a 
forma da Equação 8.2-49 com p, = 0 deve ser subme- 
tida à codificação DPCM utilizando um previsor de 
segunda ordem. 

(a) Esboce a matriz de autocorrelação R e o vetor r. 
(b) Calcule os coeficientes de previsão ótima. 


(c) Calcule a variância do erro de previsão que resul- 
taria da utilização dos coeficientes ótimos. 


*8.29 Deduza os níveis de decisão e de reconstrução de 
Lloyd-Max para L = 4 e a função densidade de proba- 
bilidade uniforme. 


l 
P(S)=42A 
(0) caso contrário 


-A<S<A 


8.30 Um radiologista de um renomado centro de pesquisas 
médicas recentemente participou de uma conferência 
médica na qual foi apresentado um sistema capaz de 
transmitir imagens de raios X digitalizadas de 12 bits 
e 4.096 x 4.096 pixels em linhas telefônicas de padrão 


T1 (1,544 Mb/s). O sistema transmitia as imagens em 
forma comprimida utilizando uma técnica progres- 
siva na qual uma aproximação relativamente boa do 
raios X era primeiro reconstruída na estação de exi- 
bição e depois gradualmente refinada para produzir 
uma exibição livre de erros. A transmissão dos dados 
necessários para gerar a primeira aproximação levou 
aproximadamente 5 ou 6 s. Os refinamentos foram rea- 
lizados a cada 5 ou 6 s (em média) durante o 1 minuto 
subsequente, com o primeiro e último refinamento apre- 
sentando o maior e menor impacto significativo sobre 
os raios X reconstruídos, respectivamente. O médico 
ficou impressionado com o sistema, porque ele teria 
como começar o diagnóstico utilizando a primeira 
aproximação dos raios X e completá-lo à medida que a 
reconstrução livre de erros dos raios X ia sendo gerada. 
Ao voltar ao centro de pesquisas, ele submeteu uma 
ordem de compra ao administrador do centro. Infeliz- 
mente, o centro estava com um orçamento apertado, 
uma situação que se agravou ainda mais com a con- 
tratação de um jovem recém-formado em engenharia 
elétrica. Para apaziguar o radiologista, o administrador 
atribuiu ao jovem engenheiro a tarefa de projetar um 
sistema similar. (Ele considerou que seria mais barato 
projetar e construir internamente um sistema similar. 
O centro de pesquisas já tinha alguns dos elementos de 
um sistema parecido, mas a transmissão dos dados bru- 
tos dos raios X levava mais de 2 min.). O administrador 
pediu que o engenheiro preparasse um diagrama de 
bloco inicial para a reunião daquela tarde. Com pou- 
co tempo e apenas um exemplar do livro Processamento 
Digital de Imagens em mãos, o engenheiro conseguiu 
arquitetar conceitualmente um sistema para atender 
aos requisitos de transmissão e compressão associados. 
Construa um diagrama de bloco conceitual de um sis- 
tema como este, especificando as técnicas de compres- 
são que você recomendaria. 


8.31 Demonstre que a transformada wavelet baseada em 
lifting definida pela Equação 8.2-62 equivale à imple- 
mentação de banco de filtros FWT tradicional utilizando 
os coeficientes da Tabela 8.15. Determine os coeficien- 
tes do filtro em termos de a, 5,7, 6e K. 


8.32 Calcule os tamanhos dos degraus de quantização das 
sub-bandas para uma imagem codificada por JPEG- 
-2000 na qual a quantização derivada é utilizada e 
8 bits são alocados à mantissa e ao exponencial da 
sub-banda 2LL. 


8.33 Como você adicionaria uma marca d'água visível a 
uma imagem no domínio da frequência? 

*8.34 Elabore um sistema de inserção de marca d'água invi- 
sível baseado na transformada discreta de Fourier. 

8.35 Elabore um sistema de inserção de marca d'água invi- 
sível baseado na transformada wavelet discreta. 
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Capítulo 


Na forma e nas características, no corpo e nos membros, 
Cresci tão parecido com meu irmão 
Que os colegas pensavam que eu era ele 


E entre nós também existia essa confusão. 


Henry Sambrooke Leigh, Canções de Cockayne, Os Gêmeos 


Apresentação 


A palavra morfologia geralmente denota um ramo da biologia que lida com a forma e a estrutura dos animais 
e das plantas. Usamos a mesma palavra aqui no contexto da morfologia matemática como uma ferramenta 
para extrair componentes das imagens que são úteis na representação e na descrição da forma de uma re- 
gião, como fronteiras, esqueletos e o fecho convexo (convex hull). Estamos interessados também nas técnicas 
morfológicas para pré ou pós-processamento, como a filtragem morfológica, afinamento (thinning) e poda 
(pruning). 


Nas seções seguintes, desenvolveremos e ilustraremos vários conceitos importantes na morfologia matemá- 
tica. Muitas das ideias aqui introduzidas podem ser formuladas em termos do espaço euclidiano n-dimensio- 
nal, E”. No entanto, nosso interesse inicial está nas imagens binárias, cujos componentes são elementos de 
Z (ver Seção 2.4.2). Discutiremos extensões para imagens em escala de cinza na Seção 9.6. 


O material deste capítulo inicia uma transição de um foco nos métodos puramente de processamento de 
imagem, cuja entrada e saída são imagens, para processos em que as entradas são imagens, mas as saídas são 
atributos extraídos das imagens, no sentido definido na Seção 1.1. Ferramentas como a morfologia e seus 
conceitos relacionados são a pedra angular da fundamentação matemática utilizada para a extração de “signi- 
ficados” de uma imagem. Outras metodologias são desenvolvidas e aplicadas nos capítulos restantes do livro.” 


9.1 Algumas definições básicas 


A linguagem da morfologia matemática é a teoria dos 
conjuntos. Como tal, a morfologia oferece uma abordagem 
unificada e poderosa para vários problemas de processa- 
mento de imagens. Os conjuntos em morfologia matemá- 


* Pode ser útil que você revise as seções 2.4.2 e 2.6.4 antes de prosseguir. 


tica representam os objetos encontrados em uma imagem. 
Por exemplo, o conjunto de todos os pixels brancos em uma 
imagem binária é uma descrição morfológica completa da 
imagem. Em imagens binárias, os conjuntos em questão são 
membros do espaço 2-D de números inteiros Z? (veja a Se- 
ção 2.4.2), em que cada elemento de um conjunto é um ve- 
tor bidimensional, cujas coordenadas são (x, y) de um pixel 
branco (ou preto, dependendo da convenção) de uma ima- 
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gem. As imagens digitais em níveis de cinza como as discuti- 
das nos capítulos anteriores podem ser representadas como 
conjuntos cujos componentes estão em Z?. Neste caso, dois 
componentes de cada elemento do conjunto referem-se às 
coordenadas de um pixel, e o terceiro corresponde ao seu 
valor discreto de intensidade. Os conjuntos em espaços di- 
mensionais maiores podem conter outros atributos de ima- 
gem, como cor e componentes que variam com o tempo. 


Além do conjunto básico de definições na Seção 
2.6.4, os conceitos de reflexão e de translação de conjun- 
tos são amplamente utilizados em morfologia.” A reflexão 
de um conjunto B, indicada por B, é definida como 


B=(wlw=-b, para be B} (9.1-1) 


Se B é o conjunto de pixels (pontos bidimensionais) 
que representa um objeto em uma imagem, então B é 
simplesmente o conjunto dos pontos em B cujas coor- 
denadas (x, y) foram substituídas por (-x, -y). As figuras 
9.1(a) e (b) mostram um conjunto simples e sua refle- 
xão. 


A translação de um conjunto B no ponto z = (Z,, Z,), 
indicada por (B),, é definida como 


(B), ={clc=b+z, para be B) (9.1-2) 


Se B é o conjunto de pixels que representa um ob- 
jeto em uma imagem, então (B) é o conjunto de pontos 
em B, cujas coordenadas (x, y) foram substituídas por 
(x+Z,)+2Z,). A Figura 9.1(c) ilustra esse conceito, usan- 
do o conjunto B da Figura 9.1 (a). 


A reflexão e a translação de conjuntos são ampla- 
mente empregadas na morfologia para formular opera- 
ções baseadas nos chamados elementos estruturantes (ES): 
pequenos conjuntos ou subimagens usadas para exami- 
nar uma imagem buscando propriedades de interesse. A 
primeira linha da Figura 9.2 mostra vários exemplos de 
elementos estruturantes, nos quais cada quadrado som- 
breado indica um membro do ES. Quando não importa 
se um lugar em um certo elemento estruturante é ou não 
um membro do conjunto ES, essa localização é marca- 


* A operação do conjunto de reflexão é análoga à operação de in- 
verter (rotacionar) desempenhada em uma convolução espacial 
(Seção 3.4.2). 


“ Ao trabalhar com figuras geométricas, como os conjuntos da Fi- 
gura 9.1, usaremos sombreamento para indicar os pontos (pixels) 
que são membros do conjunto considerado. Ao trabalhar com 
imagens binárias, os conjuntos de interesse são os pixels cor- 
respondentes aos objetos. Mostraremos esses pixels em branco, 
e todos os outros pixels em preto. Frente (foreground) e fundo 
(background) são termos frequentemente usados para designar os 
conjuntos de pixels em uma imagem que são definidos como ob- 
jetos e não objetos, respectivamente. 


Ê Z2 
a B i 
zı c 
(B); 
Figura 9.1 (a) Um conjunto, (b) sua reflexão e (c) a sua translação por z. 


da com um “x” para indicar uma condição do tipo “não 
interessa”, como será definido na Seção 9.5.4. Além de 
uma definição de quais elementos são membros do ES, 
a origem de um elemento estruturante também deve ser 
especificada. As origens dos diversos ESs na Figura 9.2 são 
indicadas por um ponto preto (embora colocar o cen- 
tro de um ES em seu centro de gravidade seja comum, 
a escolha da origem geralmente depende do problema). 
Quando o ES é simétrico e nenhum ponto é mostrado, 
considera-se que a origem está no centro de simetria. 


Ao trabalhar com imagens, é necessário que os ele- 
mentos estruturantes sejam arranjos matriciais retangula- 
res. Isso é feito acrescentando o menor número possível de 
elementos de fundo (que são mostrados sem sombreamen- 
to na Figura 9.2) necessários para formar um arranjo matri- 
cial retangular. O primeiro e o último ES na segunda linha 
da Figura 9.2 ilustram o procedimento. Os outros elemen- 
tos estruturantes nessa linha já estão na forma retangular. 


Como introdução sobre como os elementos estru- 
turantes são utilizados em morfologia, considere a Figura 
9.3. As figuras 9.3 (a) e (b) mostram um conjunto simples 


Figura 9.2 Primeira linha: exemplos de elementos estruturantes. 
Segunda linha: elementos estruturantes convertidos em arranjos re- 
tangulares. Os pontos indicam os centros dos ESs. 


Figura 9.3 (a) Um conjunto (cada quadrado sombreado é um mem- 
bro do conjunto). (b) Um elemento estruturante. (c) O conjunto preen- 
chido com elementos de fundo para formar um arranjo matricial re- 
tangular e fornecer um contorno de fundo. (d) Elemento estruturante 
como um arranjo matricial retangular. (e) Conjunto processado pelo 
elemento estruturante. 


e um elemento estruturante. Como mencionado no pará- 
grafo anterior, uma implementação computacional requer 
que o conjunto 4 também seja convertido em um arran- 
jo matricial retangular, acrescentando-lhe elementos de 
fundo. O contorno do fundo é feito grande o suficien- 
te para acomodar todo o elemento estruturante quando 
sua origem está no contorno do conjunto original [isto 
é, análogo ao preenchimento (padding) utilizado para a 
correlação e convolução espaciais, discutidas na Seção 
3.4.2]. Neste caso, o elemento estruturante tem tamanho 
3 x 3 com a origem no centro; portanto, um contorno de 
apenas um elemento que englobe todo o conjunto é sufi- 
ciente, conforme mostra a Figura 9.3(c). Como na Figura 
9.2, o elemento estruturante é preenchido com o menor 
número possível de elementos de fundo necessários para 
torná-lo um arranjo matricial retangular (Figura 9.3(d)).' 


Imagine que definamos uma operação no conjun- 
to A usando um elemento estruturante B, como segue: 
crie um novo conjunto fazendo uma “varredura” de B 
ao longo de 4, para que a origem de B passe por todos 
os elementos de 4. Em cada localização da origem de B, 
marque o lugar como um membro do novo conjunto 
(sombreado) se B estiver completamente contido em A; 
senão, marque o lugar como não sendo um membro do 
novo conjunto (não sombreado). A Figura 9.3(e) mostra 
o resultado dessa operação. Vemos que, quando a ori- 
gem de B está em um elemento do contorno de A, parte 
de B deixa de estar contida em A, eliminando, assim, o 
local em que B está centrado como um possível membro 
do novo conjunto. O resultado final é que a fronteira do 


* Nas próximas ilustrações, adicionamos pontos de fundo suficien- 
tes para formar arranjos matriciais retangulares, mas deixamos o 
preenchimento implícito quando o significado é claro, a fim de 
simplificar as figuras. 
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conjunto sofre erosão, conforme mostra a Figura 9.3(e). 
Quando usamos terminologias como “o elemento estru- 
turante está contido no conjunto”, queremos dizer espe- 
cificamente que os elementos de 4 e B se sobrepõem 
completamente. Em outras palavras, embora mostremos 
Ae B como arranjos matriciais contendo elementos tanto 
sombreados quanto não sombreados, apenas os elemen- 
tos sombreados de ambos os conjuntos são considerados 
para determinar se B está contido em 4 ou não. Esses 
conceitos formam a base do material nas próximas se- 
ções; por isso, é importante que você entenda completa- 
mente as ideias na Figura 9.3 antes de prosseguir. 


9.2 Erosão e dilatação 


Começaremos a discussão de morfologia estudan- 
do duas operações: erosão e dilatação. Essas operações são 
fundamentais para o processamento morfológico. Na ver- 
dade, muitos dos algoritmos morfológicos discutidos nes- 
te capítulo se baseiam nessas duas operações primitivas. 


921 Erosão 


Com A e B como conjuntos de Z?, a erosão de A por 
B, indicada por ASB, é definida como 


AOB={zl(B), C A} (9.2-1) 


Em outras palavras, essa equação indica que a ero- 
são de A por B é o conjunto de todos os pontos z de forma 
que B, transladado por z, está contido em A. Na discussão 
a seguir, o conjunto B é considerado um elemento estru- 
turante. A Equação 9.2-1 é a formulação matemática do 
exemplo na Figura 9.3(e), discutida no final da última se- 
ção. Como a afirmação de que B tem de estar contida em 
A é equivalente a dizer que B não tem elementos comuns 
com o fundo, podemos expressar a erosão na seguinte 
forma equivalente: 


AGB=(zI(B),NA =9) (9.2-2) 


na qual, como foi definido na Seção 2.6.4, A‘ é o comple- 
mento de A, e Ø é o conjunto vazio. 


A Figura 9.4 mostra um exemplo de erosão. Os ele- 
mentos de 4 e B são mostrados sombreados, e o fundo 
é branco. A linha sólida na Figura 9.4(c) é o limite além 
do qual deslocamentos adicionais da origem de B fa- 
riam com que o elemento estruturante deixasse de estar 
completamente contido em A. Assim, o locus dos pontos 
(posições da origem de B) dentro desse limite, incluin- 
do a fronteira, constitui a erosão de A por B. Mostramos 
a erosão sombreada na Figura 9.4(c). Tenha em mente 
que a erosão é simplesmente o conjunto de valores de z 
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Figura 9.4 (a) Conjunto A. (b) Elemento estruturante quadrado, B. 
(c) Erosão de A por B, mostrada sombreada. (d) Elemento estruturante 
alongado. (e) Erosão de A por B utilizando esse elemento. A borda 
pontilhada em (c) e (e) é a fronteira do conjunto 4, apresentada ape- 
nas como referência. 


que satisfazem a Equação 9.2-1 ou a 9.2-2. A fronteira 
do conjunto A aparece tracejada nas figuras 9.4(c) e (e) 
apenas como referência; não é parte da operação de ero- 
são. A Figura 9.4(d) mostra um elemento estruturante 
alongado, e a Figura 9.4(e) mostra a erosão de A por esse 
elemento. Note que o conjunto original foi erodido até se 
transformar em uma linha. 


As equações 9.2-1 e 9.2-2 não são as únicas defi- 
nições de erosão (veja os exercícios 9.9 e 9.10 para ver 
duas definições equivalentes adicionais). No entanto, es- 
sas equações têm uma vantagem sobre as outras formu- 
lações, pois são mais intuitivas quando consideramos o 
elemento estruturante B como uma máscara espacial (ver 
Seção 3.4.1). 


Exemplo 9.1 Usando a erosão para remover 


componentes de imagem. 


Suponha que desejamos remover as linhas que li- 
gam o componente central com os componentes que estão 
nas bordas da Figura 9.5(a). A erosão dessa imagem com 
um elemento estruturante quadrado de tamanho 11 x 11, 
cujos componentes são todos Is, removeu a maioria das 
linhas, como mostra a Figura 9.5(b). A razão pela qual as 
duas linhas verticais no centro foram afinadas, mas não 
completamente removidas, é que sua largura é maior que 
11 pixels. Alterar o tamanho do ES para 15 x 15 e efetuar 
a erosão da imagem original novamente remove todas as 
linhas de ligação, como mostra a Figura 9.5(c) (uma abor- 
dagem alternativa teria sido efetuar uma nova erosão na 


Ea 

ER 
Figura 9.5 Usando a erosão para remover componentes da ima- 
gem. (a) Uma imagem binária 486 x 486 de uma conexão wire-bond. 
(b) a (d) Imagem erodida utilizando elementos estruturantes quadra- 


dos de tamanhos 11 x 11,15 x 15 e 45 x 45, respectivamente. Os 
componentes dos ES eram todos 1s. 


imagem na Figura 9.5(b) usando o mesmo ES de 11 x 11). 
Aumentar ainda mais o tamanho do elemento estruturan- 
te iria eliminar os componentes maiores. Por exemplo, os 
componentes que estão na borda da figura podem ser re- 
movidos com um elemento estruturante de tamanho 45 x 
45, como mostra a Figura 9.5(d). 
Vemos, neste exemplo, que a erosão diminui ou afina 
os objetos em uma imagem binária. De fato, podemos ver a 
erosão como uma operação de filtragem morfológica em que 
os detalhes da imagem menores que o elemento estrutu- 
rante são filtrados (removidos) da imagem. Na Figura 9.5, a 
erosão realizou a função de um “filtro de linha”. Voltaremos 
ao conceito de filtro morfológico nas seções 9.3 e 9.6.3. 
= 


9.2.2 Dilatação 


Com A e B como conjuntos de Z’, a dilatação de A 
por B, indicada por 4 & B, é definida como 


A®B= {z I($), NA = 2} (9.2-3) 


Essa equação baseia-se na reflexão de B em torno 
de sua origem, seguida da translação dessa reflexão por 
z (veja a Figura 9.1). A dilatação de A por B é, então, o 
conjunto de todos os deslocamentos, z, de forma que Ê e 
A se sobreponham pelo menos por um elemento. Com 
base nessa interpretação, a Equação 9.2-3 pode ser escrita 
de maneira equivalente como 


A@®B={zI[(B), NA]C A) (9.2-4) 


Como antes, vamos supor que B é um elemento es- 
truturante, e A é o conjunto (objetos de imagem) a ser 
dilatado. 


As equações 9.2-3 e 9.2-4 não são as únicas defini- 
ções de dilatação usadas atualmente (veja os exercícios 
9.11 e 9.12 para duas definições diferentes, mas equivalen- 
tes). No entanto, essas equações têm uma vantagem sobre 
as outras formulações, já que são mais intuitivas ao con- 
siderar o elemento estruturante B como uma máscara de 
convolução. O processo básico de inversão (rotação) de B 
em torno de sua origem, seguido de seu deslocamento su- 
cessivo para que se deslize sobre o conjunto (imagem) A, é 
análogo à convolução espacial, introduzida na Seção 3.4.2. 
Tenha em mente, contudo, que a dilatação está baseada 
em operações de conjunto e, portanto, é uma operação 
não linear, enquanto a convolução é uma operação linear. 


Ao contrário da erosão, que é uma operação de di- 
minuição ou afinamento, a dilatação “aumenta” ou “en- 
grossa” os objetos em uma imagem binária. A forma es- 
pecífica e a extensão desse espessamento são controladas 
pelo formato do elemento estruturante utilizado. A Figu- 
ra 9.6(a) mostra o mesmo conjunto utilizado na Figura 
9.4, e a Figura 9.6(b) mostra um elemento estruturante 
(neste caso, B = B, porque o ES é simétrico em relação à 
sua origem). A linha tracejada na Figura 9.6(c) mostra 
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Figura 9.6 (a) Conjunto 4. (b) Elemento estruturante quadrado (o 
ponto mostra a origem). (c) Dilatação de A por B, mostrada sombrea- 
da. (d) Elemento estruturante alongado. (e) Dilatação de A utilizando 
esse elemento estruturante. A borda pontilhada em (c) e (e) é a fron- 
teira do conjunto A, apresentada apenas para referência. 
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o conjunto original para referência, e a linha continua 
mostra o limite além do qual os deslocamentos da origem 
de B por z resultariam em uma intersecção vazia entre 
Be A. Portanto, todos os pontos dentro desse limite, in- 
cluindo a fronteira, constituem a dilatação de A por B. A 
Figura 9.6(d) mostra um elemento estruturante projetado 
para realizar uma maior dilatação na direção vertical 
do que na horizontal e a Figura 9.6(e) mostra o resultado da 
dilatação com esse elemento estruturante. 


o] 
Exemplo 9.2 Uma ilustração da dilatação. 


Uma das aplicações mais simples da dilatação é a união 
de lacunas. A Figura 9.7(a) mostra a mesma imagem com 
caracteres quebrados que estudamos na Figura 4.49, quando 
abordávamos a filtragem passa-baixa. Sabe-se que o tamanho 
máximo das “quebras” (lacunas) é de dois pixels. A Figura 
9.7(b) mostra um elemento estruturante que pode ser usado 
para consertar essas lacunas (repare que, em vez do sombrea- 
mento, foi utilizado 1s para designar os elementos do ES e 
Os para o fundo, isto porque o ES agora é tratado como uma 
subimagem e não como uma ilustração). A Figura 9.7(c) 
mostra o resultado da dilatação da imagem original com esse 
elemento estruturante. As lacunas foram preenchidas. Uma 
vantagem imediata da abordagem morfológica sobre o méto- 
do de filtragem passa-baixa utilizada para unir as lacunas na 
Figura 4.49 é que o método morfológico produz diretamen- 
te uma imagem binária. A filtragem passa-baixa, por outro 
lado, começa com uma imagem binária e produz uma ima- 
gem em níveis de cinza, o que exigiria uma etapa adicional 
de limiarização para convertê-la de volta à forma binária. 

a 


923 Dualidade 


A dilatação e erosão são operações duais em relação 
à complementação e à reflexão de conjuntos. Isto é, 


a c 


Historicaliy, certain computer 
programs + 
only two digi 


Historically, certain computer 
programs were written using 
only two digits rather than 
four to define the applicable 
year. Accordingly, the 


re written using 


four to d 


company's software may 


ate using "00" 
as 1900 rather than the 


2060. 


recognize a date using "00" 
as 1900 rather than the/year 


/ 
/ 
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Ha 
Ha 


Figura 9.7 (a) Amostra de um texto de baixa resolução com carac- 
teres quebrados (veja a imagem ampliada). (b) Elemento estruturante. 
(c) Dilatação de (a) por (b). Os segmentos quebrados foram juntados. 
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(AGB) =A° OB (9.2-5) 


(ABB = AS OB (9.2-6) 


A Equação 9.2-5 indica que a erosão de A por B é 
o complemento da dilatação de 4º por B e vice-versa. A 
propriedade de dualidade é particularmente útil quando o 
elemento estruturante é simétrico em relação à sua origem 
(como muitas vezes é o caso), de modo que B = B. Então, 
podemos obter a erosão de uma imagem por B simples- 
mente fazendo a dilatação do fundo (ou seja, dilatando A‘) 
com o mesmo elemento estruturante e complementando 
o resultado. Isso também se aplica à Equação 9.2-6. 


Seguimos para provar formalmente a validade da 
Equação 9.2-5, a fim de ilustrar uma abordagem típica 
para estabelecer a validade das expressões morfológicas. 
Começando com a definição de erosão, segue-se que 


(AO BS = {z I(B), CAS 

Se o conjunto (B), está contido em A, então (B) NA'= Ø. 

Neste caso, a expressão anterior se torna 
(AO B) = {z|(B), NAS =} 

Mas 0 complemento do conjunto dos valores de z que 
satisfazem (B) N A°= Ø corresponde ao conjunto dos valo- 
res de z de modo que (B), N A’ Ø. Portanto, 

(AGB) ={z1(B), NAS =O} 
=A QÊ 
em que a última etapa deriva da Equação 9.2.3. Isso con- 


clui a prova. Um raciocínio semelhante pode ser usado 
para provar a Equação 9.2-6 (veja o Exercício 9.13). 


9.3 Abertura e fechamento 


Como já foi visto, a dilatação expande os componen- 
tes de uma imagem, e a erosão os diminui. Nesta seção, 
discutiremos mais duas operações morfológicas importan- 
tes: abertura e fechamento. A abertura geralmente suaviza 
o contorno de um objeto, rompe os istmos e elimina as sa- 
liências finas. O fechamento também tende a suavizar con- 
tornos, mas, ao contrário da abertura, geralmente funde as 
descontinuidades estreitas e alonga os golfos finos, elimina 
pequenos buracos e preenche as lacunas em um contorno. 

A abertura do conjunto A pelo elemento estruturan- 
te B, indicado por A o B é definida como 


AcB=(AOB)@B (9.3-1) 


Assim, a abertura de A por B é a erosão de A por B, 
seguida de uma dilatação do resultado por B. 


Da mesma forma, o fechamento do conjunto A pelo 
elemento estruturante B, indicado por A ° B, é definido 
como 


AB=(ABBJOB (9.3-2) 


que mostra que o fechamento de A por B é simplesmente 
a dilatação de A por B, seguida pela erosão do resultado 
por B. 


A operação de abertura tem uma interpretação 
geométrica simples (Figura 9.8). Suponha que vemos o 
elemento estruturante B como uma “bola rolante acha- 
tada” ou um “disco plano”. A fronteira de A o B é, então, 
determinada pelos pontos em B que alcançam o ponto 
mais distante na fronteira de 4, na medida em que B rola 
pelo interior dessa fronteira. Esta propriedade de ajuste 
geométrico da operação de abertura leva a uma formula- 
ção de teoria de conjuntos que afirma que a abertura de 
A por B é obtida tomando-se a união de todas as transla- 
ções de B que se encaixam em A. Isto é, a abertura pode 


ser expressa como um processo de ajuste de tal forma que 
Ac B=U((B), I(B), © A} (9.3-3) 


na qual U{-} indica a união de todos os conjuntos dentro 
das chaves. 


AB = U{(B)(B); CA} 


Figura 9.8 (a) Elemento estruturante B “rolando” pela parte de 
dentro da fronteira de A (o ponto indica a origem de B). (b) Elemento 
estruturante. (c) A linha grossa é a fronteira exterior da abertura. (d) 
Abertura completa (sombreada). Não sombreamos A em (a) para melhor 
compreensão. 


O fechamento tem uma interpretação geométrica 
semelhante, só que agora rolamos B do lado de fora da 
fronteira (Figura 9.9). Como discutido a seguir, abertura 
e fechamento são operações duais, o que torna essa in- 
terpretação inesperada. Geometricamente, um ponto w é 
um elemento de A e B se, e somente se, (B), N A # Ø para 
qualquer translação de (B) que contenha w. A Figura 9.9 
ilustra as propriedades geométricas básicas do fechamento. 


= 
Exemplo 9.3 Uma ilustração simples de abertura e 
fechamento morfológico. 


A Figura 9.10 ilustra também as operações de aber- 
tura e fechamento. A Figura 9.10(a) mostra um conjunto 
A, e a Figura 9.10(b) mostra diferentes posições de um ele- 
mento estruturante em forma de disco durante o proces- 
so de erosão. Quando concluído, esse processo resulta 
na figura desconexa mostrada na Figura 9.10(c). Repare 
na eliminação da ponte entre as duas seções principais. 
Sua largura era fina em relação ao diâmetro do elemento 
estruturante, isto é, o elemento estruturante não coube 
completamente nesta parte do conjunto, violando, assim, 
as condições da Equação 9.2-1. O mesmo aconteceu com 
os dois membros mais à direita do objeto. Os elementos 
salientes em que o disco não coube foram eliminados. A 
Figura 9.10(d) mostra o processo de dilatação do conjun- 
to erodido, e a Figura 9.10(e) mostra o resultado final da 
abertura. Repare que os cantos que apontavam para fora 
foram arredondados, enquanto os cantos que apontavam 
para dentro não foram alterados. 


Similarmente, as figuras 9.10(f) até i mostram os re- 
sultados do fechamento de 4 com o mesmo elemento es- 
truturante. Note que os cantos que apontavam para dentro 
foram arredondados, enquanto os cantos que apontavam 
para fora permeneceram inalterados. A baía à esquerda for- 
mada pela fronteira do objeto A teve seu tamanho reduzido 
significativamente, pois o disco não se encaixou ali. Repare 
também na suavização de algumas partes do objeto resul- 
tante, tanto na abertura como no fechamento do conjunto 
A com um elemento estruturante circular. 

E 


B 
A-B 
a b c 
A 
Figura 9.9 (a) Elemento estruturante B “rolando” pela fronteira ex- 


terior do conjunto A. (b) A linha grossa é a fronteira exterior do fecha- 
mento. (c) Fechamento completo (sombreado). Não sombreamos 4 em 
(a) para melhor compreensão. 
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A-B=(AOBJOB 


ABB 


A-B=(A®DB)OB 


Figura 9.10 Abertura e fechamento morfológicos. O elemento es- 
truturante é o pequeno círculo mostrado em várias posições em (b). 
O ES não foi sombreado aqui para uma melhor compreensão. O ponto 
preto é o centro do elemento estruturante. 


Como no caso da dilatação e erosão, a abertura e o 
fechamento são duais entre si em relação à complemen- 
tação e reflexão de conjuntos. Isto é, 


(AB; =(A'oB) (9.3-4) 


(AoB) = (AB) (9.3-5) 
Deixamos a prova deste resultado como um exercí- 
cio (Exercício 9.14). 


A operação de abertura satisfaz às seguintes pro- 
priedades: 


(a) A o B é um subconjunto (subimagem) de A. 


(b) Se C é um subconjunto de D, então Co B é um sub- 
conjunto de Do B. 


(c) (A0B)oB=AoB. 
Da mesma forma, a operação de fechamento satis- 
faz as seguintes propriedades: 
(a) A é um subconjunto (subimagem) de A ° B. 


(b) Se C é um subconjunto de D, então C e B é um sub- 
conjunto de D e B. 


(c) (A*B)*B=AeB. 
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Note pela condição (c), em ambos os casos, que as 
múltiplas aberturas ou fechamentos de um conjunto não 
têm efeito após o operador ter sido aplicado uma vez. 


= 
Exemplo 9.4 Uso de abertura e fechamento para 
filtragem morfológica. 


As operações morfológicas podem ser usadas para cons- 
truir filtros com conceitos semelhantes aos filtros espaciais 
discutidos no Capítulo 3. A imagem binária na Figura 9.11 (a) 
mostra uma seção de uma impressão digital corrompida por 
ruído. Aqui, o ruído se manifesta como elementos aleatórios 
claros sobre um fundo escuro e como elementos escuros so- 
bre componentes claros na impressão digital. O objetivo é eli- 
minar o ruído e seus efeitos na impressão digital, provocando 
a menor distorção possível. Um filtro morfológico de abertu- 
ra, seguido de um filtro de fechamento, pode ser usado para 
atingir esse objetivo. 


A Figura 9.11(b) mostra o elemento estruturante que 
foi utilizado. O restante da Figura 9.11 mostra uma sequén- 
cia passo a passo da operação de filtragem. A Figura 9.11(c) 
é o resultado da erosão de A com o elemento estruturante. O 
ruído de fundo foi completamente eliminado no estágio de 
erosão da abertura porque, neste caso, todos os componen- 
tes de ruído são menores que o elemento estruturante. O 
tamanho dos elementos de ruído (pontos pretos) da impres- 


HIN 


Figura 9.11 


(A ° B)®B 


D: mE 


são digital na verdade aumentou de tamanho. A razão é que 
esses elementos são fronteiras internas que aumentam de 
tamanho à medida que o objeto é erodido. Esse aumento in- 
desejado pode ser resolvido com a realização de uma dilata- 
ção na Figura. 9.11(c). A Figura 9.11(d) mostra o resultado. 
Os componentes de ruído contidos na impressão digital fo- 
ram reduzidos em tamanho ou completamente eliminados. 


As duas operações descritas constituem a abertura de A 
por B. Notamos, na Figura 9.11(d), que o efeito final da aber- 
tura era eliminar praticamente todos os componentes de 
ruído tanto no fundo como na própria impressão digital. 
No entanto, apareceram novas lacunas entre as cristas da 
impressão digital. Para resolver esse efeito indesejável, reali- 
zamos uma dilatação na abertura, como mostrado na Figura 
9.11(e). A maioria das quebras foi restaurada, mas as cristas 
ficaram mais espessas, uma condição que pode ser sanada 
com uma erosão. O resultado, mostrado na Figura. 9.11 (£), 
constitui o fechamento da abertura da Figura 9.11(d). 


Este resultado final está praticamente livre do ruído im- 
pulsivo, mas tem a desvantagem de que algumas das cristas 
da impressão não foram totalmente reparadas e ainda apre- 
sentam algumas quebras. Isso não é totalmente inesperado, 
porque não foram observadas condições no procedimento 
para manter a conectividade (discutiremos novamente este 
assunto no Exemplo 9.8 e demonstraremos formas para re- 
solvê-lo na Seção 11.1.7). 

E 


(AOB)®B=A°B 
[(A ° B)BB])OB=(A°B)'B 


5. 


` 


h NN 


(= 


(a) Inagem ruidosa. (b) Elemento estruturante. (c) Inagem erodida. (d) Abertura de A. (e) Dilatação da abertura. (f) Fechamento da 


abertura. (Imagem original: cortesia do Instituto Nacional de Padrões e Tecnologia.) 


9.4 Atransformada hit-or-miss 


A transformada morfológica hit-or-miss é uma fer- 
ramenta básica para a detecção de formas. Introduzimos 
esse conceito com a ajuda da Figura 9.12, a qual mos- 
tra um conjunto A constituído por três formas (subcon- 
juntos), chamadas C, D e E. O sombreamento nas figuras 
9.12(a) a (c) indica os conjuntos originais, enquanto o 
sombreamento nas figuras 9.12(d) e (e) indica o resultado 
das operações morfológicas. O objetivo é encontrar a lo- 
calização de uma das formas, por exemplo, D. 


Considere que a origem de cada forma seja locali- 
zada em seu centro de gravidade. Suponha que D esteja 
dentro de uma pequena janela, W. O fundo local de D em 
relação a W é definido como a diferença de conjuntos (W — 
D), como mostrado na Figura 9.12(b). A Figura 9.12(c) 


A=CUDUE W —(W — D) 
b Y 
e 
e 
E Origem 
j E 
D 
c O ees 
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a a, 


TA O(W-D) 


(AS D) N(ACSTW — D] 


a 
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Figura 9.12 (a) Conjunto A. (b) Uma janela, W, e o fundo local de D 
em relação a W, (W-— D). (c) Complemento de A. (d) Erosão de A por D 
(e) Erosão de Æ por (W/— D). (f) Intersecção entre (d) e (e), mostrando 
a localização da origem de D, como desejado. Os pontos indicam as 
origens de C, De E. 
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mostra o complemento de A, que será necessário mais 
tarde. A Figura 9.12(d) mostra a erosão de 4 por D (as 
linhas tracejadas são incluídas como referência). Lembre- 
-se que a erosão de A por D é o conjunto de posições da ori- 
gem de D, de forma que D esteja completamente contido 
em A. Interpretado de outra maneira, AOD pode ser vista 
geometricamente como o conjunto de todas as localiza- 
ções da origem de D em que D encontrou um acerto (hit) 
em A. Tenha em mente que, na Figura 9.12, A consiste 
apenas de três conjuntos disjuntos, C, De E. 


A Figura 9.12(e) mostra a erosão do complemento de 
A pelo conjunto de fundo local (W — D). A região sombrea- 
da externa na Figura 9.12(e) é parte da erosão. Vemos, nas 
figuras 9.12(d) e (e) que o conjunto de posições nas quais 
D se encaixa exatamente dentro de A é a interseção entre a 
erosão de A por D e a erosão da 4º por (W — D), como mos- 
trado na Figura 9.12(f). Essa interseção é precisamente a 
localização procurada. Em outras palavras, se B for o con- 
junto composto por D e seu fundo, então o casamento (ou 
conjunto de casamentos) de B em A, indicado por A & B, é 


A®B=(AƏD)N[A O(W-D)] (9.4-1) 


Podemos generalizar a notação fazendo B = (B,, B,), 
em que B é o conjunto formado por elementos de B as- 
sociados a um objeto, e B, é o conjunto de elementos de 
B associados ao fundo correspondente. A partir da discus- 
são anterior, B, = De B, = (W— D). Com essa notação, a 
Equação 9.4-1 torna-se 


A®B=(AOB)N(A‘ OB,) (9.4-2) 


Assim, o conjunto 4 & B contém todos os pontos 
(origem) em que, simultaneamente, B, encontrou um 
acerto (hit) em 4, e B, encontrou um acerto em 4º. Usando 
a definição de diferença de conjuntos da Equação 2.6-19 
e da relação dual entre a erosão e a dilatação dada na 
Equação 9.2-5, podemos escrever a Equação 9.4-2 como 


A®B=(AOB,)—(A@B,) (9.4-3) 


No entanto, a Equação 9.4-2 é muito mais intuitiva. 
Referimo-nos a qualquer uma das últimas três equações 
como a transformada morfológica hit-or-miss. 


A razão para usar um elemento estruturante B, as- 
sociado com os objetos e um elemento B, associado com o 
fundo deve-se à definição de que dois ou mais objetos são 
distintos somente se formarem conjuntos disjuntos (não 
conectados). Isso é garantido exigindo que cada objeto 
tenha um fundo de pelo menos um pixel de espessura ao 
redor dele. Em algumas aplicações, podemos estar inte- 
ressados na detecção de certos padrões (combinações) de 
Is e Os dentro de um conjunto. Neste caso, o fundo não 
é necessário e a transformada hit-or-miss se reduz à ope- 
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ração simples de erosão. Como indicado anteriormente, 
a erosão é ainda um conjunto de casamentos, mas sem a 
exigência adicional de um casamento do fundo para a de- 
tecção de objetos individuais. Esse esquema simplificado 
de detecção de padrões é usado em alguns dos algoritmos 
desenvolvidos na seção a seguir. 


9.5 Alguns algoritmos morfológicos 
básicos 


Baseando-se na discussão anterior, estamos prontos pa- 
ra examinar alguns usos práticos da morfologia. No caso de 
imagens binárias, uma das principais aplicações da morfo- 
logia é extrair componentes da imagem que sejam úteis na 
representação e na descrição de formas. Em particular, consi- 
deramos os algoritmos morfológicos para a extração de fron- 
teiras, componentes conexos, fecho convexo e esqueleto de 
uma região. Também desenvolvemos diversos métodos (para 
o preenchimento de buracos, afinamento, espessamento e 
poda), que são usados frequentemente em conjunto com 
esses algoritmos como etapas de pré ou pós-processamento. 
Fazemos uso extensivo de “mini-imagens” nesta seção, vi- 
sando a esclarecer os mecanismos de cada processo morfol6- 
gico conforme ele é introduzido. Essas imagens são mostra- 
das graficamente com os 1s sombreados e os Os em branco. 


9.5.1 Extração de fronteiras 


A fronteira de um conjunto A, denotada por b(A), 
pode ser obtida pela erosão de 4 por B, seguida da dife- 
rença de conjuntos entre 4 e sua erosão. Ou seja, 


B(A)=A-(A6B) (9.5-1) 


na qual B é um elemento estruturante adequado. 


A Figura 9.13 ilustra o funcionamento da extração de 
fronteiras. Ela mostra um objeto binário simples, um ele- 
mento estruturante B e o resultado do uso da Equação 9.5-1. 
Embora o elemento estruturante na Figura 9.13(b) seja um 
dos mais utilizados, ele não é o único. Por exemplo, a utili- 
zação de um elemento estruturante 5 x 5 composto por Is 
resultaria em uma fronteira de espessura entre 2 e 3 pixels.” 


= 
Exemplo 9.5 Extração de fronteiras pelo 
processamento morfológico. 
A Figura 9.14 ilustra o uso da Equação 9.5-1 com um 
elemento estruturante 3 x 3 composto por ls. Como ocorre 


com todas as imagens binárias neste capítulo, os números 
binários 1s são mostrados em branco e os Os em preto; por- 


“A partir deste ponto, não mostraremos explicitamente o preen- 
chimento dos contornos. 


a 
b 
e 
A B 
c d 
AOB B(A) 
Figura 9.13 (a) Conjunto A. (b) Elemento estruturante B. (c) A ero- 


dido por B. (d) Fronteira, dada pela diferença entre 4 e sua erosão. 


tanto, os componentes do elemento estruturante, que são 
ls, também são tratados como brancos. Em virtude do ta- 
manho do elemento estruturante utilizado, a fronteira da 
Figura 9.14(b) possui espessura de um pixel. 

= 


9.5.2 Preenchimento de buracos 


Um buraco pode ser definido como uma região de 
fundo rodeada por um contorno de pixels de frente co- 
nectados. Nesta seção, desenvolveremos um algoritmo 
baseado em dilatação, complemento e interseção de con- 
juntos para preenchimento de buracos em uma imagem. 
Considere 4 um conjunto cujos elementos são fronteiras 
8-conectadas, cada uma delas englobando uma região de 
fundo (ou seja, um buraco). Dado um ponto em cada bu- 
raco, o objetivo é preencher todos eles com Is. 


Começamos pela formação de um arranjo matricial, 
Xy de Os (o mesmo tamanho que o arranjo que contém 
A), exceto nas posições em X, correspondentes ao ponto 
dado em cada buraco, que foi definido como 1. Depois, o 
procedimento a seguir preenche todos os buracos com Is: 


X,=(X 1 OBJNA k=1,23,... (9.5-2) 


Figura 9.14 


(a) Uma imagem binária simples, com os 1s represen- 
tados em branco. (b) Resultado da utilização da Equação 9.5-1 com o 
elemento estruturante da Figura 9.13(b). 


sendo B o elemento estruturante simétrico na Figura 
9.15(c). O algoritmo termina no passo de iteração k se X, = 
X,. O conjunto X, então contém todos os buracos preen- 
chidos. A união de X, e A contém todos os buracos preenchi- 
dos e suas fronteiras. 


A dilatação na Equação 9.5-2 preencheria toda a 
região se não fosse selecionada. No entanto, a interse- 
ção de cada passo com A‘ limita o resultado para dentro 
da região de interesse. Este é o nosso primeiro exemplo de 
como um processo morfológico pode ser condicionado para 
atender a uma propriedade desejada. Nessa aplicação, esse 
procedimento é apropriadamente chamado de dilatação 
condicional. O restante da Figura 9.15 ilustra o funciona- 
mento da Equação 9.5-2 com mais detalhes. Embora este 
exemplo tenha apenas um buraco, o conceito se aplica 
claramente a qualquer número finito deles, considerando 
que um ponto dentro de cada região do buraco foi dado. 


= 
Exemplo 9.6 Preenchimento morfológico de buracos. 


A Figura 9.16(a) mostra uma imagem composta de 
círculos brancos com pontos pretos no seu interior. Uma 
imagem como essa poderia ser o resultado de uma limia- 
rização binária de uma cena contendo esferas polidas (por 


a b 
c 
e 
A AC B 
d e f 
Xo X, X 
g h i 
X6 Xg Xg UA 
Figura 9.15 Preenchimento de buracos. (a) Conjunto A (sombreado). 


(b) Complemento de A. (c) Elemento estruturante B. (d) Ponto inicial 
dentro da fronteira. (e) a (h) Vários passos da Equação 9.5-2. (i) Resul- 
tado final [união de (a) e (h)]. 
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Figura 9.16 


(a) Imagem binária (o ponto branco dentro de uma das 
regiões é o ponto de partida para o algoritmo de preenchimento de bu- 
racos). (b) Resultado do preenchimento daquela região. (c) Resultado 
do preenchimento de todos os buracos. 


exemplo, rolamentos). As manchas escuras no interior das 
esferas poderiam ser o resultado de reflexos. O objetivo é 
eliminar os reflexos com o preenchimento de buracos. A Fi- 
gura 9.16(a) mostra um ponto selecionado dentro de uma 
das esferas, e a Figura 9.16(b) mostra o resultado do preen- 
chimento desse componente. Finalmente, a Figura 9.16(c) 
mostra o resultado do preenchimento de todas as esferas. 
Como é necessário saber se os pontos pretos são pontos de 
fundo ou pontos internos da esfera, automatizar completa- 
mente este procedimento exige que “inteligência” adicional 
seja incorporada no algoritmo. Mostraremos uma metodo- 
logia totalmente automatizada na Seção 9.5.9, baseada na 
reconstrução morfológica. (Veja também o Exercício 9.23.) 
E 


9.5.3 Extração de componentes conexos 


Os conceitos de conectividade e componentes co- 
nexos foram introduzidos na Seção 2.5.2. A extração de 
componentes conexos de uma imagem binária é essencial 
para muitas aplicações automáticas de análise de imagem. 
Seja 4 um conjunto contendo um ou mais componentes 
conexos, que forma um arranjo matricial X, (do mesmo 
tamanho que o arranjo que contém A), cujos elementos 
são Os (valores de fundo), exceto em cada posição que cor- 
responde a um ponto em cada componente conexo em 4, 
que definimos como 1 (valor de frente). O objetivo é co- 
meçar com X, e encontrar todos os componentes conexos. 
O seguinte procedimento iterativo cumpre esse intuito: 


X,=(X OBINA k=1,2,3,... (9.5-3) 
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onde B um elemento estruturante adequado (como na 
Figura 9.17). O procedimento termina quando X, = X, 
y com X, contendo todos os componentes conexos da 
imagem de entrada. Repare na similaridade das equações 
9.5-3 e 9.5-2. A única diferença é o uso de A em vez de AS. 
Isto não surpreende, porque aqui estamos procurando os 
pontos de frente, enquanto o objetivo na Seção 9.5.2 era 
encontrar os pontos de fundo. 


A Figura 9.17 ilustra o funcionamento da Equação 
9.5-3, com a convergência sendo alcançada para k = 6. 
Repare que a forma do elemento estruturante utilizado 
é baseada na conectividade-8 entre os pixels. Se tivés- 
semos usado o ES na Figura 9.15, que é baseado na co- 
nectividade-4, o elemento na parte inferior esquerda do 
componente conexo não teria sido detectado porque está 
8-conectado com o restante da figura. Como no algorit- 
mo de preenchimento de buracos, a Equação 9.5-3 pode 
ser aplicada em um número finito de componentes cone- 
xos contidos em 4, assumindo que é conhecido um ponto 
em cada um deles.” 


E 

Exemplo 9.7 Usando componentes conexos para 
detectar objetos estranhos em alimentos 
embalados. 


Os componentes conexos são frequentemente uti- 
lizados para realizar inspeção automatizada. A Figura 
9.18(a) mostra uma imagem de raios X de um peito de 
frango que contém fragmentos de ossos. É de grande inte- 


a 


e| |B 


Xa X3 X6 


Figura 9.17 Extraindo componentes conexos. (a) Elemento estrutu- 
rante. (b) Arranjo matricial contendo um conjunto com um componente 
conexo. (c) Arranjo inicial contendo um 1 na região do componente co- 
nexo. (d) a (g) Vários passos na iteração da Equação 9.5-3. 


* Veja o Exercício 9.24 do algoritmo que não exige que um ponto 
em cada componente conexo seja conhecido a priori. 


resse poder detectar esses objetos nos alimentos processa- 
dos antes da embalagem e/ou envio. Neste caso particular, 
a densidade dos ossos é de tal intensidade que seus valores 
nominais são diferentes dos valores do fundo. Isso faz com 
que a extração dos ossos do fundo seja uma tarefa simples 
usando um único limiar (a limiarização foi introduzida na 
Seção 3.1, e é discutida em mais detalhes na Seção 10.3). 
O resultado é a imagem binária na Figura 9.18(b). 


O mais importante nesta figura é o fato de que os 
pontos que restaram estão agrupados nos objetos (ossos), 
em vez de serem pontos isolados e irrelevantes. Podemos 
ter certeza de que somente os objetos de tamanho “signi- 
ficativo” permanecerão após erodir a imagem binarizada. 
Neste exemplo, definimos como significativo qualquer ob- 
jeto que permaneça após a erosão com um elemento estru- 
turante 5 x 5 formado de 1s. O resultado da erosão aparece 
na Figura 9.18(c). O próximo passo é analisar o tamanho 
dos objetos que permanecem. Rotulamos (identificamos) 
esses objetos extraindo os componentes conexos na ima- 
gem. A tabela na Figura 9.18(d) apresenta os resultados da 
extração. Há um total de 15 componentes conexos, e quatro 
deles são dominantes em tamanho. Isso é suficiente para 
determinar que um número significativo de objetos indese- 
jáveis está contido na imagem original. Se necessário, uma 
caracterização adicional (como a forma, por exemplo) é 


possível usando as técnicas discutidas no Capítulo 11. 
a 


9.5.4 Fecho convexo 


Um conjunto A é considerado convexo se o segmento 
de linha reta que une quaisquer dois pontos em A ficar 
totalmente dentro de 4. O fecho convexo H de um conjunto 
arbitrário S é o menor conjunto convexo que contém S. 
A diferença do conjunto H — S é chamada de deficiência 
convexa de S. Como discutiremos em mais detalhes nas 
seções 11.1.6 e 11.3.2, o fecho convexo e a deficiência 
convexa são úteis para a descrição de objetos. Aqui, apre- 
sentamos um algoritmo morfológico simples para a ob- 
tenção do fecho convexo, C(A), de um conjunto A. 

Considere que B', i= 1, 2, 3, 4, representam os qua- 
tro elementos estruturantes na Figura 9.19(a). O proce- 
dimento consiste na aplicação da equação: 


X,=(X, , OBJUA i=1,2,3,4 
e 

k=1,2,3,... (9.5-4) 
com X' = A. Quando o procedimento converge (ou seja, 
quando X =X, |), fazemos D' = Xi Portanto, o fecho 
convexo de A é 


Figura 9.18 
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Número de pixels 


Componente no componente 
conexo conexo 
11 
9 
9 
39 
133 
1 
1 
743 
7 
10 11 
11 11 
12 9 
13 9 
14 674 
15 85 


(a) Imagem de raios X de um filé de frango com fragmentos de ossos. (b) Imagem binarizada. (c) Imagem erodida com um elemento 


estruturante 5 x 5 formado de 1s. (d) Número de pixels nos componentes conexos de (c). (Imagem original: cortesia do NTB Elektronische Geraete 


GmbH, Diepholz, Alemanha, www.ntbxray.com.) 


4 
C(A)=|JD' (9.5-5) 

i=l 

Em outras palavras, o método consiste em aplicar ite- 

rativamente a transformada hit-or-miss em A com B!; quan- 
do nenhuma outra alteração ocorrer, realizaremos a união 
com A e chamamos o resultado de D'. O procedimento 
é repetido com P? (aplicado em A), até que não ocorram 
mais mudanças, e assim por diante. A união dos quatro 
Ds resultantes constitui o fecho convexo de 4. Note que 
estamos usando a implementação simplificada da transfor- 
mada hit-or-miss em que nenhum casamento do fundo é 
requerido, como foi discutido no final da Seção 9.4. 


A Figura 9.19 ilustra o procedimento indicado nas 
equações 9.5-4 e 9.5-5. A Figura 9.19(a) mostra os ele- 
mentos estruturantes utilizados para extrair o fecho con- 
vexo. A origem de cada elemento está em seu centro. As 
entradas x indicam as condições “que não importam”. 
Isto significa que dizemos que um elemento estruturante 
encontrou um casamento em A se a região 3 x 3 de A sob a 
máscara do elemento estruturante na posição “casa” com 
o padrão da máscara. Para uma máscara particular, um 
casamento de padrões ocorre quando o centro da região 


3 x 3 em A €0, e os três pixels sob os elementos da más- 
cara sombreada são 1. Os valores dos outros pixels na re- 
gião 3 x 3 não importam. Além disso, no que diz respeito 
à notação da Figura 9.19(a), B' é uma rotação de B=! em 
90º no sentido horário. 


A Figura 9.19(b) mostra um conjunto A para o qual 
se deseja conhecer o fecho convexo. Começando com 
X,=A resulta no conjunto da Figura 9.19(c) após qua- 
tro iterações da Equação 9.5-4. Então, fazendo Xf =A 
e novamente usando a Equação 9.5-4, resultou no con- 
junto da Figura 9.19(d) (a convergência foi alcançada em 
apenas dois passos neste caso). Os dois resultados seguin- 
tes foram obtidos da mesma forma. Por fim, formando a 
união dos conjuntos nas figuras 9.19(c) a (f), chega-se ao 
fecho convexo mostrado na Figura 9.19(g). A contribui- 
ção de cada elemento estruturante é destacada no con- 
junto composto mostrado na Figura 9.19(h). 


Uma limitação evidente nesse processo abordado 
é que o fecho convexo pode crescer além das dimensões 
mínimas exigidas para garantir a convexidade. Uma abor- 
dagem simples para reduzir esse efeito é limitar o cresci- 
mento, de modo que não vá além da dimensão vertical 
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a ME: ME x[x[x 
ma ae = Bt 
b c d 
XI =å x} X$ 
e f g 
x3 X C(A) 
h 
Yi, B' 
% B 
NB 
Ill B4 
Figura 9.19 (a) Elementos estruturantes. (b) Conjunto A. (c) a (f) Re- 


sultados da convergéncia com os elementos estruturantes mostrados 
em (a). (g) Fecho convexo. (h) Fecho convexo mostrando a contribuição 
de cada elemento estruturante. 


e horizontal do conjunto original de pontos. Impor essa 
limitação no exemplo na Figura 9.19 resultou na ima- 
gem que aparece na Figura 9.20. As fronteiras de maior 
complexidade podem ser usadas para limitar ainda mais 
o crescimento em imagens com mais detalhes. Por exem- 
plo, poderíamos usar as dimensões máximas do conjunto 
original de pontos ao longo das direções vertical, hori- 
zontal e diagonal. O preço pago por refinamentos como 
este é a complexidade adicional e o aumento dos requisi- 
tos computacionais do algoritmo. 


9.5.5 Afinamento 


O afinamento de um conjunto A por um elemento 
estruturante B, chamado A®B, pode ser definido em ter- 
mos da transformada hit-or-miss: 


AGB=A-(AQB) 


= AN(A@B)' (9.5-6) 


Tal como na seção anterior, estamos interessados 
apenas no casamento de padrões com os elementos es- 
truturantes e, por isso, nenhuma operação de fundo é re- 
querida na transformada hit-or-miss. Uma expressão mais 


Figura 9.20 Resultado de limitar o crescimento do algoritmo de fecho 
convexo para as dimensões máximas do conjunto original de pontos nas 
direções vertical e horizontal. 


útil para afinar 4 de forma simétrica é baseada em uma 
sequência de elementos estruturantes: 


{B}={B', B°, B? ,...B"} (9.5-7) 


na qual B' é uma versão rotacionada de B”!, Utilizando 
este conceito, podemos agora definir o afinamento por 
uma sequência de elementos estruturantes como 


A@{B}=((...((A@B')@B?)...)@B") (9.5-8) 


O processo consiste em afinar 4 por uma passada 
com B!, depois afinar o resultado com uma passada de B? 
e assim sucessivamente, até que A seja afinado com uma 
passada de B”. Todo o processo é repetido até que não 
ocorram mais alterações. Cada passada de afinamento é 
realizada por meio da Equação 9.5-6. 


A Figura 9.21(a) mostra um conjunto de elemen- 
tos estruturantes que geralmente são utilizados para o 
afinamento, e a Figura 9.21(b) mostra um conjunto A 
que deve ser afinado usando o procedimento que acaba- 
mos de discutir. A Figura 9.21(c) mostra o resultado do 
afinamento após uma passada de A com B!, e as figuras 
9.21(d) a (k) mostram os resultados de passes com os ou- 
tros elementos estruturantes. A convergência foi alcan- 
cada após o segundo passe de Bº. A Figura 9.21(1) mostra 
o resultado afinado. Finalmente, a Figura 9.21(m) mos- 
tra o conjunto afinado convertido para conectividade-m 
(veja a Seção 2.5.2) para eliminar caminhos múltiplos. 


9.5.6 Espessamento 


O espessamento é o complemento morfológico do 
afinamento, e é definido pela expressão 


AQ B=AU(A@B) (9.5-9) 


sendo B um elemento estruturante adequado para o es- 
pessamento. Como no afinamento, o espessamento pode 
ser definido como uma operação sequencial: 


AO {B} = ((...((A@ B!) © B’)...) OB") (9.5-10) 
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= Origem 
a | x x x x x x 
x t x x x 
x x x x x x 
B! B? B? Bt B Be B’ BS 
C Origem 
bi c d 
A A, =A@B! Ay = A, @ B’ 
e f g 
A =4 8B? A, = A; Q Bt As = 448 B’ 
h i j 
Ag = As @ B® Ag = Ag ® BTS Aga = Ag OBS 
k m 
Ags = Aga Q B Ago = Ags ® B® As e convertido em 


Sem mais mudanças 


conectividade-m. 


depois disso. 


Figura 9.21 


(a) Sequência de elementos estruturantes rotacionados que são utilizados para o afinamento. (b) Conjunto A. (c) Resultado do 


afinamento com o primeiro elemento. (d) a (i) Resultados do afinamento com os sete elementos seguintes (não houve alteração entre o sétimo 
e oitavo elementos). (j) Resultado de utilizar os quatro primeiros elementos novamente. (I) Resultado após a convergência. (m) Conversão para a 


conectividade-m. 


Os elementos estruturantes utilizados para o espes- 
samento têm a mesma forma que os mostrados na Figura 
9.21(a), mas com todos os Is e Os trocados. No entanto, 
um algoritmo exclusivo para o espessamento raramente 
é usado na prática. Em vez disso, o procedimento usual 
é afinar o fundo do conjunto em questão e, em seguida, 
complementar o resultado. Em outras palavras, para es- 
pessar um conjunto A, formamos C = AS, afinamos C e, en- 
tão, formamos Cs. A Figura 9.22 ilustra este procedimento. 


Dependendo da natureza de 4, esse procedimento 
pode resultar em pontos desconectados, como mostra a 
Figura 9.22(d). Assim, o espessamento por esse método 
geralmente é seguido por um pós-processamento para eli- 
minar os pontos desconectados. Repare, na Figura 9.22(c), 
que o fundo afinado forma uma fronteira para o processo 
de espessamento. Essa característica útil não está presente 
na implementação direta do espessamento usando a Equa- 
ção 9.5-10, sendo uma das principais razões para a utiliza- 
ção do afinamento do fundo para efetuar o espessamento. 


9.5.7 Esqueletos 


Como mostra a Figura 9.23, a noção de um esque- 
leto, S(A), de um conjunto A é intuitivamente simples. 
Deduzimos desta figura que 


a b 
c d 
e 
Figura 9.22 (a) Conjunto A. (b) Complemento de A. (c) Resultado do 


afinamento do complemento de A. (d) Espessamento obtido comple- 
mentando (c). (e) Resultado final, sem pontos desconectados. 
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(a) Se z é um ponto de S(A) e (D), é o maior disco 
centrado em z que está contido em A, não se pode 
encontrar um disco maior (não necessariamente 
centrado em z) contendo (D) e contido em 4. O 
disco (D), é chamado de disco máximo. 

(b) O disco (D) toca a fronteira de 4 em dois ou mais 
lugares diferentes. 

O esqueleto de A pode ser expresso em termos de 
erosões e aberturas. Ou seja, pode ser comprovado [Serra 
(1982)] que 


StA) = |] S,(4) (9.5-11) 
com J 
S(A)=(AGKkB)-(AGKkB)-B | (9.5-12) 


onde B é um elemento estruturante, e (AGKB) indica k 
erosões sucessivas de A: 


(AOKB) = ((...((AGB)OB)©...)OB) (9.5-13) 


k vezes e K é o último passo iterativo antes de A ser erodi- 
do até se tornar um conjunto vazio. Em outras palavras, 


K = max{k|(AOkB) = 2) (9.5-14) 


A formulação dada nas equações 9.5-11 e 9.5-12 
afirma que S(A) pode ser obtido como a união dos subcon- 
juntos do esqueleto S (A) do esqueleto. Além disso, pode ser 


Figura 9.23 (a) Conjunto A. (b) Diversas posições dos discos máximos 
com os centros sobre o esqueleto de A. (c) Outro disco máximo em um 
segmento diferente do esqueleto de A. (d) Esqueleto completo. 


comprovado que A pode ser reconstruído a partir desses 
subconjuntos utilizando a equação 
K 
A=(J(S,(A) @ kB) (9.5-15) 
k=0 
na qual (S (4) kB) denota k dilatações sucessivas de 
S,(A), isto é, 


(SUA) BKB) = ((...((S,(A) ®B)®B)®...)@B) (9.5-16) 


= 
Exemplo 9.8 Calculando o esqueleto de uma figura simples. 


A Figura 9.24 ilustra os conceitos que acabamos de 
discutir. A primeira coluna mostra o conjunto original (no 
topo) e duas erosões por um elemento estruturante B. Note 
que mais uma erosão de A produziria um conjunto vazio, 
portanto K = 2 neste caso. A segunda coluna mostra a aber- 
tura por B dos conjuntos da primeira coluna. Esses resultados 
podem ser facilmente explicados pela caracterização de ajus- 
te da operação de abertura discutida em relação à Figura 9.8. 
A terceira coluna contém simplesmente as diferenças de 
conjunto entre a primeira e a segunda colunas. 


A quarta coluna contém dois esqueletos parciais e o 
resultado final (na parte de baixo da coluna). O esqueleto 
final não só é mais espesso do que deveria mas, o que é mais 
importante, não está conectado. Este resultado não é ines- 
perado, já que nada na formulação anterior do esqueleto 
morfológico garante a conectividade. A morfologia produz uma 
formulação elegante em termos de erosões e aberturas de um 
dado conjunto. No entanto, as formulações heurísticas, como 
o algoritmo desenvolvido na Seção 11.1.7, são necessárias se, 
como geralmente é o caso, for exigido que o esqueleto seja o 
mais fino possível, conectado e pouco erodido. 

A quinta coluna mostra S (A), S,(A)@B e (S,(A)62B) = 
(S (A) 6B) B. Finalmente, a última coluna mostra a re- 
construção de um conjunto 4 que, de acordo com a Equação 
9.5-15, é a união dos subconjuntos do esqueleto dilatado 
mostrados na quinta coluna. 

E 


95.8 Poda 


Os métodos de poda são um complemento essencial 
para os algoritmos de afinamento e esqueletização, uma 
vez que esses procedimentos costumam deixar compo- 
nentes parasitas que precisam ser “limpados” por meio de 
um pós-processamento. Começaremos a discussão com um 
problema de poda e depois desenvolveremos uma solução 
morfológica baseada no material introduzido nas seções 
anteriores. Assim, aproveitamos essa oportunidade para 
ilustrar como proceder para resolver um problema com- 
binando várias das técnicas discutidas até este ponto. 


Uma abordagem comum em matéria de reconheci- 
mento automático de caracteres escritos à mão é feita a 
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Figura 9.24 


Implementação das equações 9.5-11 até 9.5-15. O conjunto original está na parte superior esquerda e seu esqueleto morfológico 


está na parte de baixo da quarta coluna. O conjunto reconstruído está na parte de baixo da sexta coluna. 


partir da análise da forma do esqueleto de cada caractere. 
Esses esqueletos normalmente são corrompidos por com- 
ponentes “espúrios” (parasitas). Os componentes parasitas 
são causados durante a erosão pela descontinuidade nos 
segmentos que compõem os caracteres. Desenvolvemos 
uma técnica morfológica para tratar esse problema, par- 
tindo do pressuposto de que o tamanho do componente 
parasita não excede um número específico de pixels. 


A Figura 9.25(a) mostra o esqueleto de uma letra 
“a” escrita à mão”. O componente parasita na parte à es- 
querda do caractere é um exemplo do que queremos re- 
mover. A solução baseia-se na supressão da ramificação 
parasita eliminando-se sucessivamente seu ponto extre- 
mo. Evidentemente, isso também reduz (ou elimina) ou- 
tras ramificações do caractere, mas, na ausência de outras 
informações estruturais, a hipótese neste exemplo é que 


* Podemos definir um ponto final como o ponto central de uma re- 
gião 3 x 3, que satisfaz qualquer um dos arranjos matriciais das 
figuras 9.25(b) ou (c). 


qualquer ramificação com três pixels ou menos deve ser 
eliminada. O afinamento de um conjunto de entrada A 
por uma sequência de elementos estruturantes projeta- 
dos para detectar apenas extremidades consegue o resul- 
tado desejado. Ou seja, considere que 


X, = A@{B} (9.5-17) 


na qual {B} denota a sequéncia de elementos estruturan- 
tes mostrada nas figuras 9.25(b) e (c) (veja a Equação 
9.5-7 sobre as sequências de elementos estruturantes). 
Esta consiste em dois elementos estruturantes diferentes, 
cada qual rotacionado em 90º, para um total de oito ele- 
mentos. O “x” na Figura 9.25(b) significa uma condição 
“não importa”, no sentido de que não importa se o pixel 
nessa posição tem valor 0 ou 1. Numerosos resultados 
relatados na literatura sobre morfologia baseiam-se na 
utilização de um único elemento estruturante, semelhan- 
te ao da Figura 9.25(b), mas que possui condições “não 
importa” ao longo de toda a primeira coluna. Isso é incor- 
reto. Por exemplo, este elemento identificaria o ponto lo- 
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x B', B’, B?, Bº (girar 90°) 


B*, B®, B’, B (girar 90°) 


Figura 9.25 


(a) Imagem original. (b) e (c) Elementos estruturantes uti 


lizados para eliminar os pontos extremos. (d) Resultado de três ciclos de 


afinamento. (e) Extremidades de (d). (f) Dilatação das extremidades condicionadas em (a). (g) Imagem podada. 


calizado na oitava linha, quarta coluna da Figura 9.25(a) 
como uma extremidade, eliminando-o e interrompendo 
a conectividade no segmento. 


Aplicar a Equação 9.5-17 em A três vezes produz o 
conjunto X, definido na Figura 9.25(d). O próximo passo 
é “restaurar” a forma original do caractere, mas sem as 
ramificações parasitas. Para fazer isso, primeiro é neces- 
sário formar um conjunto X, contendo todas as extremi- 
dades de X, [Figura 9.25(e)]: 


(9.5-18) 


na qual B* são os mesmos detectores de extremidades 
mostrados nas figuras 9.25(b) e (c). O próximo passo é a 
dilatação das extremidades três vezes, usando o conjunto 
A como um delimitador:* 


X, = (X,@H)NA (9.5-19) 


sendo que H é um elemento estruturante 3 x 3 de Is 
e a interseção com A é aplicada após cada etapa. Como 
no caso do preenchimento de região e da extração de 


* A Equação 9.5-19 é a base para a reconstrução morfológica por 
dilatação, conforme será explicado na próxima seção. 


componentes conexos, esse tipo de dilatação condicional 
evita a criação de elementos de valor 1 fora da região de 
interesse, como evidenciado pelo resultado mostrado na 
Figura 9.25(f). Por fim, a união de X, e X, leva ao resul- 
tado desejado, 


X =x UX, (9.5-20) 


na Figura 9.25(g). 


Em cenários mais complexos, a utilização da Equa- 
ção 9.5-19 às vezes pega “dicas” a respeito de algumas ra- 
mificações parasitas. Esta condição poderá ocorrer quando 
as extremidades dessas ramificações estiverem próximas 
ao esqueleto. Embora a Equação 9.5-17 possa eliminá- 
-las, elas podem ser apanhadas novamente durante a di- 
latação porque são pontos válidos em A. A não ser que 
todos os elementos parasitas sejam apanhados novamen- 
te (um caso raro se esses elementos são pequenos se com- 
parados com as partes válidas dos caracteres), detectá-los 
e eliminá-los é fácil porque são regiões desconectadas. 


Neste momento, um pensamento natural é que 
deve haver maneiras mais fáceis de resolver este proble- 
ma. Por exemplo, poderíamos apenas rastrear todos os 
pontos eliminados e simplesmente reconectar os pon- 
tos apropriados a todas as extremidades deixadas após a 


aplicação da Equação 9.5-17. Essa opção é válida, mas 
a vantagem da formulação apresentada é que o uso de 
operações morfológicas simples resolve inteiramente o 
problema. Em situações práticas, quando muitas dessas 
ferramentas estiverem disponíveis, a vantagem é que um 
novo algoritmo não precisa ser reescrito. Simplesmen- 
te combinamos as funções morfológicas necessárias em 
uma sequência de operações. 


9.5.9 Reconstrução morfológica 


Os conceitos morfológicos discutidos até agora 
envolvem uma imagem e um elemento estruturante. 
Nesta seção, discutiremos uma poderosa transforma- 
ção morfológica denominada reconstrução morfológica, 
que envolve duas imagens e um elemento estruturante. 
Uma imagem, o marcador, contém os pontos de partida 
para a transformação. A outra imagem, a máscara, restrin- 
ge a transformação. O elemento estruturante é usado 
para definir a conectividade.” 


Dilatação e erosão geodésica 


Os conceitos de dilatação e erosão geodésicas são 
fundamentais para a reconstrução morfológica. Suponha 
que F denote a imagem do marcador, e G, a imagem da 
máscara. Nessa discussão, consideramos que ambas são 
imagens binárias, e que FC G. A dilatação geodésica de ta- 
manho 1 da imagem do marcador de imagem com rela- 
ção à máscara, denotada por DY’ (F), é definida como 
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DÜ (F)=(F 8 B)NG (9.5-21) 


N representa a interseção de conjuntos (N aqui pode ser 
interpretado como uma função lógica do tipo E, porque 
a interseção de conjuntos e as operações lógicas do tipo E 
são as mesmas para conjuntos binários). A dilatação geo- 
désica de tamanho n de F em relação a G é definida como 


De” (F) = DY | DeF) (9.5-22) 


com D(F) = F. Nessa expressão recursiva, a interseção 
na Equação 9.5-21 é realizada a cada passo.” Repare que 
o operador de interseção garante que a máscara G limi- 
tará o crescimento (dilatação) do marcador F. A Figura 
9.26 mostra um exemplo simples de dilatação geodésica 
de tamanho 1. Os passos na figura são uma aplicação di- 
reta da Equação 9.5-21. 


Da mesma forma, a erosão geodésica de tamanho 1 
do marcador F em relação à máscara G é definida como 


EV (F)=(FOB)UG 


G 


(9.5-23) 


na qual U indica a união de conjuntos (ou a operação lógi- 
ca OU). A erosão geodésica de tamanho n de F em relação 
à G é definida como 


(9.5-24) 


com E’(F)= F. A operação de união de conjuntos na 
Equação 9.5-23 é realizada a cada passo iterativo, e garan- 
te que a erosão geodésica de uma imagem continue a ser 


Figura 9.26 Ilustração da dilatação geodésica. 


g 
B 
E» >| N = 
Marcador 
F Marcador dilatado Dilatação geodésica, D(F) 
por B G 
Máscara, G 


* Em grande parte da literatura sobre reconstrução morfológica, o elemento estruturante é tacitamente considerado isotrópico e, normal- 
mente, é chamado de elemento estruturante elementar isotrópico. No contexto deste capítulo, um exemplo de um ES é simplesmente um 


arranjo matricial 3 x 3 de Is com a origem no centro. 


Embora seja mais intuitivo desenvolver métodos de reconstrução morfológica utilizando formulações recursivas (como fizemos aqui), 


sua aplicação prática normalmente baseia-se em algoritmos computacionais mais eficientes [veja, por exemplo, Vincent (1993) e Soille 
(2003)]. Todos os exemplos baseados em imagens desta seção foram gerados usando esses algoritmos. 
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maior ou igual à sua imagem de máscara. Como esperado 
pelo formato das equações 9.5-21 e 9.5-23, a dilatação e 
a erosão geodésicas são duais no que diz respeito à com- 
plementação de conjuntos (ver Exercício 9.29). A Figura 
9.27 mostra um exemplo simples de erosão geodésica de 
tamanho 1. Os passos na figura são uma aplicação direta da 
Equação 9.5-23. 

A dilatação e a erosão geodésica de imagens finitas 
sempre convergem após um número finito de passos ite- 
rativos porque a propagação ou a diminuição da imagem 
do marcador está limitada pela máscara. 


Reconstrução morfológica por dilatação e por erosão 


Com base nos conceitos anteriores, a reconstrução 
morfológica por dilatação de uma imagem de máscara G a 
partir da imagem do marcador F, denominado Rọ (F), é 
definida como a dilatação geodésica de F em relação à G, 
iteragida até que a estabilidade seja alcançada, ou seja, 
R?(F) = D(F) 


G G 


(9.5-25) 


com k tal que DÉ (F) = DI" (F). 

A Figura 9.28 ilustra a reconstrução por dilatação. 
A Figura 9.28(a) continua o processo iniciado na Figura 
9.26, ou seja, o próximo passo na reconstrução após a ob- 
tenção de DY (F) é dilatar o resultado e, então, fazer uma 
operação lógica E com a máscara G para obter D/!(F) 
como mostra a Figura 9.28(b). A dilatação de DÉ(F)e o 
mascaramento com G produzem, então, D!?(F), e assim 
por diante. Esse procedimento é repetido até a estabilidade 
ser alcançada. Se fizéssemos mais um passo desse exemplo, 
encontraríamos Dº!(F) = Di? (F), então a imagem recons- 
truída morfologicamente pela dilatação seria dada por 
R$ (F) = DÊ (F), conforme indicado na Equação 9.5-25. 
Repare que a imagem reconstruída neste caso é idêntica 
à imagem da máscara porque F continha um único pi- 


xel de valor 1 (isto é análogo à convolução de uma ima- 
gem com um impulso, que simplesmente copia a imagem 
no local do impulso, como explicado na Seção 3.4.2). 
Similarmente, a reconstrução morfológica por erosão de 

uma imagem de máscara G de uma imagem do marcador F, 
chamada de RŽ (F), é definida como a erosão geodésica de 
Fem relação à G, iteragida até atingir a estabilidade, ou seja, 
RAP EMF) 


4 (9.5-26) 
com k tal que EČ (F) = E ™ (F). Como exercício, você 
deve gerar uma figura semelhante à Figura 9.28 para a 


reconstrução morfológica por erosão. 


A reconstrução por dilatação e erosão são duais em re- 
lação ao complemento de conjuntos (veja o Exercício 9.30). 


Exemplos de aplicações 


A reconstrução morfológica tem um amplo espectro 
de aplicações práticas, cada uma determinada pela sele- 
ção das imagens do marcador e de máscara, pelos ele- 
mentos estruturantes utilizados e pelas combinações das 
operações primitivas definidas na discussão anterior. Os 
exemplos a seguir ilustram a utilidade desses conceitos. 


Abertura por reconstrução: na abertura morfológica, a ero- 
são remove pequenos objetos e a dilatação subsequente 
tenta restaurar as formas dos objetos que permanecem. 
No entanto, a precisão dessa restauração é altamente de- 
pendente da semelhança entre as formas dos objetos e do 
elemento estruturante utilizado. A abertura por reconstrução 
restaura exatamente a forma dos objetos que permanecem 
após a erosão. A abertura por reconstrução de tamanho 
n de uma imagem F é definida como a reconstrução por 
dilatação de F a partir da erosão de tamanho n de F, isto é, 


OW (F) = R? |(F ©nB)] (9.5-27) 


e 
B 
— >| Ub 
Marcador 
F Marcador erodido Erosão geodésica, E(F) 
por B G 
Máscara, G 
Figura 9.27 Ilustração da erosão geodésica. 
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DYF) 


DF) dilatado por B J 


G 


DOF) dilatado por B DF) 


DOF) dilatado por B DF) 


Figura 9.28 


sendo que (FOnB) indica n erosões de F por B, como expli- 
cado na Seção 9.5.7. Note-se que F é usado como máscara 
nesta aplicação. Uma expressão semelhante pode ser escri- 
ta para o fechamento por reconstrução (veja a Tabela 9.1). 


A Figura 9.29 mostra um exemplo de abertura por 
reconstrução. Nessa ilustração, estamos interessados em 
extrair da Figura 9.29(a) os caracteres que contenham 
traços longos e verticais. A abertura por reconstrução 
exige pelo menos uma erosão e, por isso, realizamos 
inicialmente esse passo. A Figura 9.29(b) mostra a ero- 
são da Figura 9.29(a) com um elemento estruturante de 
comprimento proporcional à altura média dos caracte- 
res altos (51 pixels) e a largura de um pixel. Para efeito 
de comparação, calculamos a abertura da imagem usan- 
do o mesmo elemento estruturante. A Figura 9.29(c) 
apresenta o resultado. Finalmente, a Figura 9.29(d) é a 
abertura por reconstrução (de tamanho 1) de F [ou seja 
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Figura 9.29 


ponents or broken connection paths. There is no poillã 


DOF) dilatado por B DoF) = R? (F) 


Ilustração da reconstrução morfológica por dilatação. F, G, Be D(F) são da Figura 9.26. 


O(F)] dada na Equação 9.5-27. Esse resultado mostra 
que os caracteres que possuem traços verticais longos 
foram restaurados com precisão e que todos os outros 
caracteres foram removidos. 


Preenchimento de buracos: na Seção 9.5.2, foi desenvol- 
vido um algoritmo para preencher buracos baseado no co- 
nhecimento do ponto de partida em cada buraco na ima- 
gem. Aqui, nós desenvolvemos um processo totalmente 
automatizado baseado na reconstrução morfológica. Seja 
I(x, y) uma imagem binária e suponha que seja formada 
uma imagem de marcador F que é 0 em todos os lugares, 
exceto nas bordas da imagem, onde ela é definida como 
l - I, ou seja, 


1—I(x,y) se (x,y) estiver sobre a borda I 
F(x, y)= E 
0 caso contrario 


(9.5-28) 


t pth Th p 
p tth 1 Il fdtl q dt d tf th 
tt io g l fth 


p 
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(a) Imagem de texto de tamanho 918 x 2.018 pixels. A altura média aproximada dos caracteres é de 50 pixels. (b) Erosão de (a) por 


um elemento estruturante de tamanho 51 x 1 pixels. (c) Abertura de (a) com o mesmo elemento estruturante, mostrado apenas como referência. 


(d) Resultado de abertura por reconstrução. 
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a b c d e f g 
I r F FOB FeBNI H HATI 
Figura 9.30 Ilustração do preenchimento de buracos em uma imagem simples. 
Então, a dilatação geodésica de F usando 1º como máscara. Como 


H=[R2(F)| (9.5-29) 


é uma imagem binária igual a I, com todos os buracos 
preenchidos. 


Consideremos os componentes individuais de Equa- 
ção 9.5-29 para ver como essa expressão de fato faz com 
que todos os buracos na imagem sejam preenchidos. A Fi- 
gura 9.30(a) mostra uma imagem 1 simples que contém 
um buraco, e a Figura 9.30(b), seu complemento. Repare 
que, pelo fato de o complemento de 7 substituir todos os 
pixels de frente (de valor 1) pelos pixels do fundo (de valor 
0), e vice-versa, esta operação de fato cria uma “parede” 
de Os em torno do buraco. Como F é usado como uma 
máscara para a operação lógica E, tudo o que estamos fa- 
zendo aqui é proteger todos os pixels de frente (incluindo 
a parede ao redor do buraco) para que não sejam alterados 
durante as iterações do processo. A Figura 9.30(c) é um 
arranjo matricial F formado utilizando a Equação 9.5-28, 
e a Figura 9.30(d) mostra o arranjo F dilatado por um ES 
3 x 3 cujos elementos são todos Is. Note que o marcador 
F tem uma borda de Is (exceto nas posições em que Té 1) 
e, por isso, a dilatação de F dos pontos marcadores começa 
na borda e prossegue para dentro. A Figura 9.30(e) mostra 
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Figura 9.31 


ponents or broken connection paths. There is no poii 


applications, at leastsome| 


já indicado, todas as posições nesse resultado que corres- 
pondem a pixels de frente de J são O e que isso é verda- 
deiro também para os pixels do buraco. Outra iteração irá 
produzir o mesmo resultado que, quando complementada 
conforme exigido pela Equação 9.5-29, resultará na ima- 
gem da Figura 9.30(f). Como desejado, o buraco agora está 
preenchido, e o restante da imagem 1 ficou inalterado. A 
operação H N F produziu uma imagem que contém pixels 
de valor 1 nas posições correspondentes aos buracos em I, 
como mostra a Figura 9.30(g). 


A Figura 9.31 mostra um exemplo mais prático. A Fi- 
gura 9.31 (b) mostra o complemento da imagem de texto na 
Figura 9.31 (a), e a Figura 9.31(c) é a imagem do marcador, 
F, gerado a partir da Equação 9.5-28. Essa imagem tem uma 
borda de 1s, exceto nas posições que já possuíam valor 1 
na borda da imagem original. Finalmente, a Figura 9.31 (d) 
mostra a imagem com todos os buracos preenchidos. 


Limpeza das bordas: a extração de objetos de uma imagem 
para a análise posterior das formas é uma tarefa funda- 
mental no processamento automatizado de imagens. Um 
algoritmo para remover os objetos que tocam (isto é, que 
estão conectados) as bordas da imagem, é uma ferramen- 
ta útil porque (1) pode ser usado para imagens de alguma 
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designer invariably pays considerable attention to suc 


penents er breken cenncctien paths. There is ne pein 

tien past the level ef detail required te identify these 
Segmentatien ef nentrivial images is ene ef the mes 

precessing. Segmentatien accuracy determines the ev 


ef computerized analysis precedures. Fer this reasen, q 
be taken te impreve the prebability ef rugged segment, 
such as industrial inspection appli s, at least sem 
ment is possible at times. The experienced 
designer invariably pays considerable attentien te suc! 


(a) Imagem de texto de tamanho 918 x 2.018 pixels. (b) Complemento de (a) para uso como uma imagem de mascara. (c) Imagem 


do marcador. (d) Resultado do preenchimento de buracos usando a Equação 9.5-29. 


Processamento morfológico de imagens 437 


ponents or broken conne paths. There is no poi 


evel of d juired to identify those 
ation of nontrivial images is one of the mo 


n accuracy determines the ev 


procedures Fort 


robability of ru 
ction applications 


s. The 


Figura 9.32 Limpeza das bordas. (a) Imagem do marcador. (b) Imagem sem objetos tocando a borda. A imagem original é a da Figura 9.29(a). 


cena, de modo que somente os objetos completos per- 
manecem para o processamento posterior, ou (2) pode 
ser utilizado como um sinal de que objetos parciais estao 
presentes no campo de visão. Como ilustração final dos 
conceitos introduzidos nesta seção, desenvolvemos um 
procedimento de limpeza das bordas baseado na recons- 
trução morfológica. Nesta aplicação, podemos utilizar a 
imagem original como a máscara e a seguinte imagem 
como marcador: 


I(x,y) se (x,y) estiver sobre a borda I 
F(x, y)= ga 
0 caso contrario 


(9.5-30) 


O algoritmo de limpeza de bordas primeiro calcu- 
la a reconstrução morfológica R?(F) (que simplesmente 
extrai os objetos que tocam a borda da imagem) e, em 
seguida, calcula a diferença 


X =I-—R?(F) (9.5-31) 


para obter uma imagem, X, sem objetos tocando a borda. 


Como exemplo, considere a imagem do texto nova- 
mente. A Figura 9.32(a) mostra a reconstrução R? (F) obti- 
da a partir de um elemento estruturante 3 x 3 formado de 
Is (repare nos objetos que tocam a fronteira do lado direito) 
e a Figura 9.32(b) mostra a imagem X, calculada usando a 
Equação 9.5-31. Se a tarefa em questão for o reconheci- 
mento automático de caracteres, ter uma imagem na qual 
nenhum caractere entra em contato com a borda é mais 
útil porque o problema de ter de reconhecer caracteres 
parciais é evitado (uma tarefa difícil no melhor dos casos). 


9.5.10 Resumo das operações morfológicas em 
imagens binárias 

A Tabela 9.1 sintetiza os resultados morfológicos de- 
senvolvidos nas seções anteriores, e a Figura 9.33 resu- 
me os tipos básicos de elementos estruturantes utilizados 
nos diversos processos morfológicos discutidos até agora. 
Os algarismos romanos na terceira coluna da Tabela 9.1 
referem-se aos elementos estruturantes na Figura 9.33. 


9.6 Morfologia em imagens em níveis 
de cinza 


Nesta seção, estenderemos para imagens em níveis 
de cinza as operações básicas de dilatação, erosão, abertura 
e fechamento. Usaremos estas operações para desenvolver 
vários algoritmos morfológicos básicos para imagens em 
níveis de cinza. 


Ao longo da discussão que se segue, trataremos de 
funções digitais da forma f(x, y) e b(x, y), em que f(x, y) 
é uma imagem em níveis de cinza e b(x, y) é um ele- 
mento estruturante. Considera-se que essas funções são 
discretas no sentido introduzido na Seção 2.4.2. Isto é, 
se Z denota o conjunto de inteiros reais, então as coor- 
denadas (x, y) são inteiros do produto cartesiano Z2 e f 
e b são funções que atribuem um valor de intensidade 
(um número real a partir do conjunto dos números reais, 
R) para cada par distinto de coordenadas (x, y). Se os 
níveis de intensidade também forem inteiros, então Z 
deve substituir R. 


Os elementos estruturantes na morfologia em ni- 
veis de cinza executam as mesmas funções básicas que 
seus equivalentes binários: eles são utilizados como “son- 
das” para examinar uma determinada imagem procuran- 
do suas propriedades específicas. Os elementos estrutu- 


Bii=1,2,3,4 IxD|x|B'i=1,2,...,8 


x 


x|x (girar 90º) (girar 45º) 
Il IV 
x s + 
B'i=1,2,3,4 B'i=5,6,7,8 
x (girar 90º) (girar 90º) 
a 
V 


Figura 9.33 Cinco tipos básicos de elementos estruturantes utiliza- 
dos para a morfologia binária. A origem de cada elemento está em seu 
centro e os x's indicam os valores “não importa”. 
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Tabela 9.1 Resumo das operações morfológicas e suas propriedades. 
maen Equação Comentários (os algarismos romanos referem-se aos 
paiar ques elementos estruturantes na Figura 9.33) 
Translação (B), ={w|w = b+z, parab € B} Translada a origem de B para o ponto z. 
Reflexão m= {ww = -b parab € B} Reflete todos os elementos de B em torno da origem 
desse conjunto. 
Complemento A = {w|w ¢ A} Conjunto de pontos que não pertencem a A. 


A-B=(wweAwgB) 


Diferença Conjunto de pontos que pertencem a A mas não a B. 
= AnBº 

Dilatação A@B={2|B,)nAz 92) “Expande” a fronteira de A. (I) 

Erosão AoB=(z|B), C A} “Contrai” a fronteira de A. (1) 

su naz (408198 se 

ati A B=(AQ BOB Suaviza os contornos, funde pequenas quebras, alonga 


os golfos finos e elimina pequenos buracos. (I) 


Transformada hit-or-miss 


ABB=(AGBIN(40B) 
=(40 8) — (ABB) 


Conjunto de pontos (coordenadas) em que, simultanea- 
mente, B, encontra um acerto (hit) em Ae B, encontra 
um acerto em 4º 


Extração de fronteiras 


BIA) = A-(A6 8 


Conjunto de pontos na fronteira do conjunto A. (I) 


Preenchimento de buracos 


X =X BINA; 
k=1,2,3,.. 


Preenche os buracos em A; X, = arranjo matricial de Os 
com um 1 em cada buraco. (II) 


X =X BINA; 


Localiza os componentes conexos em A; X, = arranjo 


Componentes conexos matricial de Os com um 1 em cada componente co- 
23 as 
nexo. (I) 
X,=(X 1 @B UA; 
[=1,2,3,4, Localiza o fecho conexo C(A) do conjunto A, no 
Fecho convexo k=1,2,3....; qual “conv” indica convergência no sentido de que 
Xi=Ae Xe = Xk (M) 
D' = Xo 
A® B= A-(A® B) Afina o conjunto A. As duas primeiras equações ofe- 
= AN(A® B} recem a definição básica de afinamento. As últimas 
Afinamento AS {B} =((...((A@ B') equações denotam o afinamento por uma sequência de 
& 83...)Q B") elementos estruturantes. Este método é normalmente 
{B} = {B', B2, B?,..., B°} utilizado na prática. (IV) 
A® B= AU(A® B) Engrossa o conjunto A. (Veja os comentários anteriores 
Espessamento A@{B} = ((...(A© B') sobre as sequéncias de elementos estruturantes) Usa 


OB... JOB) 


IV com Os e 1s revertido. 


(continua) 
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Resumo das operações morfológicas e suas propriedades. (continuação) 


Operação 


Esqueletos 


Equação 
K 
S(A)=(JS,(A) 


K 
5,(A)=[{(Aok8) 
k=0 


—[(AOKB)cB]) 
Reconstrução de A: 


K 
A=UIS,(A)@k8) 


k=0 


Comentários (os algarismos romanos referem-se aos 
elementos estruturantes na Figura 9.33) 


Localiza o esqueleto S(A) do conjunto A. A última 
equação indica que A pode ser reconstruído a partir 
dos subconjuntos de esqueleto SIA). Em todas as trés 
equações, K é o valor do passo iterativo após o qual 
o conjunto A se torna um conjunto vazio. A notação 
(AG kB) indica a k-ésima iteração de erosões suces- 
sivas de A por B. (I) 


Poda 


X, = A@{B} 


8 
X, =JiX 28!) 
k=1 


X,=(X,@HINA 
X,=X,UX, 


X, é o resultado da poda do conjunto A. O número de 
vezes que a primeira equação é aplicada para obter X, 
deve ser especificado. Os elementos estruturantes V 
são utilizados para as duas primeiras equações. Na ter- 
ceira equação, H refere-se ao elemento estruturante I. 


Dilatação geodésica de ta- 
manho 1 


DOF) =(F BING 


Fe G são chamados de imagens do marcador e de más- 
cara, respectivamente. 


Dilatação geodésica de ta- 
manho n 


alta — pu [DF]; 


D!\F) =F 


Erosão geodésica de tama- 
nho 1 


EMF)=(FOBJUG 


Erosão geodésica de tama- 


E! (F)= Em [Ei (F)]; 


nho n EOF) =F 
Reconstrução morfológica Dir lk) ; a i 

por dilatação Fig (F) = Ds (F) ké tal que DEF) = Dg (F) 
Reconstrução morfológica RE(F) = ELF) ké tal que ELF) = EY) 


por erosão 


Abertura por reconstrução 


OFF) = Re [IF onB)] 


(FS nB) indica n erosões de F por B. 


Fechamento por reconstrução 


Ch (F) = Re [(F &nB)] 


(Fe nB) indica n dilatações de F por B. 


Preenchimento de buracos 


H =A 


H é igual à imagem de entrada I, mas com todos os 
buracos preenchidos. Veja a Equação 9.5-28 para a de- 
finição da imagem do marcador F. 


Limpeza das bordas 


X=I-RPIF) 


Xé igual à imagem de entrada I, mas todos os objetos 
que tocam (estão conectados) a borda da imagem são 
removidos. Veja a Equação 9.5-30 para a definição da 
imagem do marcador F. 
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rantes na morfologia em níveis de cinza pertencem a uma 
dessas duas categorias: não planos e planos. A Figura 9.34 
mostra um exemplo de cada um deles. A Figura 9.34(a) 
é um ES hemisférico em níveis de cinza mostrado como 
uma imagem e a Figura 9.34(c) é um perfil de intensida- 


de horizontal que passa pelo seu centro. A Figura 9.34(b) 
mostra um elemento estruturante plano em forma de 
disco e a Figura 9.34(d) mostra seu perfil de intensidade 
correspondente (a forma do perfil explica a origem da pa- 
lavra “plano”). Para melhor entendimento, os elementos 
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b 
ES plano 
| 7 


Perfil de intensidade 


ES nao plano 


D 


Perfil de intensidade 


Figura 9.34 Os elementos estruturantes não planos e planos, e os 
correspondentes perfis de intensidade horizontal que passam através 
de seu centro. Todos os exemplos apresentados nesta seção baseiam- 
-se em elementos estruturantes planos. 


na Figura 9.34 são mostrados como se fossem analógicos 
(e não discretos), mas sua implementação computacional 
é baseada em aproximações digitais (por exemplo, veja o 
ES em forma de disco à direita da Figura 9.2). Em virtude 
de uma série de dificuldades discutidas mais adiante nes- 
ta seção, os ES em níveis de cinza são pouco utilizados na 
prática. Por último, é bom salientar que, como no caso 
binário, a origem dos elementos estruturantes deve ser 
claramente identificada. Salvo indicação contrária, todos 
os exemplos apresentados nesta seção baseiam-se em ele- 
mentos estruturantes planos e simétricos de altura unitá- 
ria cujas origens estão no centro. A reflexão de um ES 
na morfologia em níveis de cinza é definida como vimos na 
Seção 9.1, e a representaremos na discussão a seguir por 


b(x,y)= b(-x,—)). 


9.6.1 Erosão e dilatação 


A erosão de f por um elemento estruturante plano 
denotado por b em qualquer posição (x, y) é definida 
como o valor mínimo da imagem na região coincidente 
com b quando a origem de b está em (x, y). Na forma de 
uma equação, a erosão em (x, y) de uma imagem f por 
um elemento estruturante b é dada por 


[fodlix.y)=min{f(x+s,y+9} (9-6-1) 


na qual, de forma semelhante ao processo de correlação 
discutido na Seção 3.4.2, x e y são incrementados uti- 
lizando todos os valores necessários para que a origem 
de b passe (faça uma varredura) por cada pixel em f. 
Ou seja, para calcular a erosão de f por b, colocamos 
a origem do elemento estruturante em todas as posições 
dos pixels da imagem. A erosão em qualquer posição é 


determinada selecionando o valor mínimo de todos os 
valores de f contidos na região que coincide com b. Por 
exemplo, se b é um elemento estruturante quadrado de 
tamanho 3 x 3, para obter a erosão de um ponto é ne- 
cessário encontrar o valor mínimo entre os nove valores 
de f contidos na região 3 x 3 definida por b quando sua 
origem encontra-se nesse ponto. 


De forma semelhante, a dilatação de fpor um ele- 
mento estruturante plano denotado por b em qualquer 
posição (x, y) é definida como o valor máximo da ima- 
gem na região salientada por b quando a origem deb 
está em (x, y). Isto é, 


[f @d|ix,y)= max {flr—s,y—} (9.6-2) 


onde usamos a definição apresentada anteriormente que 
b= b(—x,—y). A explicação dessa equação é idêntica à 
explicação dada no parágrafo anterior, mas usa a opera- 
ção de máximo, e não a de mínimo, e considera que o 
elemento estruturante é refletido em torno de sua ori- 
gem, o que levamos em conta usando (-s, -t) no argu- 
mento da função. Isso é análogo à convolução espacial, 
como explicada na Seção 3.4.2. 


Exemplo 9.9 Ilustração da erosão e dilatação em níveis 


de cinza. 


Como a erosão em níveis de cinza com um ES plano 
calcula o valor mínimo de intensidade de fem cada vizinhança 
de (x, y), coincidente com b, em geral esperamos que uma ima- 
gem em níveis de cinza, após a erosão, fique mais escura do que 
a original e que o tamanho (com relação ao tamanho do ES) 
dos objetos mais claros sejam reduzidos e o dos objetos mais 
escuros seja aumentado. A Figura 9.35(b) mostra a erosão da 
Figura 9.35(a) utilizando um ES em forma de disco de altu- 
ra unitária e raio de dois pixels. Os efeitos que acabamos de 
mencionar são claramente visíveis na imagem erodida. Por 
exemplo, repare como a intensidade dos pequenos pontos 
claros foi reduzida, fazendo com que eles ficassem pouco vi- 
síveis na Figura 9.35(b), enquanto os detalhes mais escuros 
aumentaram em espessura. O fundo da imagem erodida é 
ligeiramente mais escuro que o fundo da imagem original. Si- 
milarmente, a Figura 9.35(c) mostra o resultado da dilatação 
com o mesmo ES. Os efeitos são os opostos aos obtidos com 
a erosão. Os detalhes mais claros ficaram mais espessos e a 
intensidade dos detalhes escuros foi reduzida. Repare como 
os conectores finos em preto que aparecem à esquerda, no 
meio e no canto inferior direito da Figura 9.35(a) são pouco 
visíveis na Figura 9.35(c). As dimensões dos pontos escuros 
foram reduzidas em decorrência da dilatação mas, ao contrá- 
rio dos pequenos pontos brancos erodidos na Figura 9.35(b), 
eles ainda podem ser vistos com facilidade na imagem dilata- 
da. A razão é que os pontos pretos eram inicialmente maiores 
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Figura 9.35 
Dilatação usando o mesmo ES. (Imagem original cortesia da Lixi, Inc.) 


que os pontos brancos no que diz respeito ao tamanho do ES. 
Finalmente, observe que o fundo da imagem dilatada é ligei- 


ramente mais claro do que o da Figura 9.35(a). 
E 


Os ES não planos têm valores em níveis de cinza 
que variam ao longo de seu domínio de definição. A ero- 
são da imagem f pelo elemento estruturante não plano 
b é definida como 


[f bos y= min {fleet sy +0)—by(s,t)} 
(9.6-3) 


Aqui, na verdade subtraimos valores de f para de- 
terminar a erosão em qualquer ponto. Isso significa que, 
ao contrário da Equação 9.6-1, a erosão com um ES não 
plano não está delimitada em geral pelos valores de f, o 
que pode apresentar problemas na interpretação dos re- 
sultados. Os elementos estruturantes em níveis de cinza 
raramente são usados na prática em virtude disso, sem 
falar das possíveis dificuldades ao selecionar elementos 
significativos para b, e do custo computacional adicional 
quando comparado com a Equação 9.6-1. 


De maneira similar, a dilatação que usa um ES não 
plano é definida como 


[Sb (x,y) = máx {f(x sy D+ by (s.0)} 
per (9.6-4) 


As observações feitas no parágrafo anterior são apli- 
cáveis à dilatação com os elementos estruturantes não 
planos. Quando todos os elementos de b, são constantes 
(isto é, o ES é plano), as equações 9.6-3 e 9.6-4 se redu- 
zem às equações 9.6-1 e 9.6-2, respectivamente, dentro 
de um escalar constante igual à amplitude do ES. 

Como no caso binário, a erosão e a dilatação são duais 
em relação ao complemento e à reflexão da função, isto é, 


(f Ob) (x,y) = (fF! BD) (x,y) 


(a) Uma imagem radiográfica em níveis de cinza 448 x 425 pixels. (b) Erosão usando um disco plano com um raio de 2 pixels. (c) 


sendo f° = -f(x, y) e b=b(-x,—y). A mesma expressão 
vale para os elementos estruturantes não planos. Exceto 
quando necessitamos de maior clareza, podemos simpli- 
ficar a notação na discussão a seguir omitindo os argu- 
mentos de todas as funções, no caso em que a equação 
precedente será escrita como 


(f Ob) =(f° eb) (9.6-5) 


Similarmente 


(f @b) =(f eb) (9.6-6) 


A erosão e a dilatação, por si sós, não são particu- 
larmente úteis no processamento de imagens em níveis 
de cinza. Tal como acontece nos seus equivalentes biná- 
rios, as operações tornam-se poderosas quando utilizadas 
em combinação para obter algoritmos de mais alto nível, 
como demonstra o material das seções a seguir. 


9.6.2 Abertura e fechamento 


As expressões para abertura e fechamento de ima- 
gens em níveis de cinza têm a mesma forma que seus 
correspondentes binários. A abertura da imagem f pelo 
elemento estruturante b, indicada por fo b, é 


f- b=(foebjob 


Como antes, a abertura é simplesmente a erosão de f 
por b, seguida por uma dilatação do resultado com b. Da 
mesma forma, o fechamento de f por b, indicado por f ¢ b, é 


(9.6-7) 


feb=(fobjob 


A abertura e o fechamento de imagens em níveis de 
cinza são duais em relação ao complemento e à reflexão 
do ES: 


(9.6-8) 


* Apesar de lidarmos com elementos estruturantes planos nos exem- 
plos do restante desta seção, os conceitos discutidos são igualmente 
aplicáveis aos elementos estruturantes não planos. 
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A 


(f+ by = fro b (9.6-9) 


(fob) = fied 
Como f = —f(x, y), a Equação 9.6-9 também pode ser 


escrita como -(f -b) = (-F b). O mesmo ocorre para a 
Equação 9.6-10. 


(9.6-10) 


A abertura e o fechamento de imagens possuem 
uma interpretação geométrica simples. Suponha que uma 
função de imagem f(x, y) seja vista como uma superfície 
3-D, isto é, seus valores de intensidade sejam interpre- 
tados como os valores da altura sobre o plano xy, como 
na Figura 2.18(a). Então, a abertura de f por b pode ser 
interpretada geometricamente como se empurrássemos 
o elemento estruturante de baixo para cima contra a su- 
perfície inferior de f. Em cada posição da origem de b, a 
abertura é o valor mais alto alcançado por qualquer parte 
de b, uma vez que se choca com a superfície inferior de f. 
A abertura completa é, então, o conjunto de todos esses 
valores obtidos ao fazer que a origem de b passe por cada 
uma das coordenadas (x, y) de f. 

A Figura 9.36 ilustra o conceito em uma dimen- 
são. Suponha que a curva na Figura 9.36(a) seja o per- 
fil de intensidade ao longo de uma única linha de uma 


us Perfil de intensidade 


\ 4- Abertura 


4— Fechamento 


Figura 9.36 Abertura e fechamento em uma dimensão. (a) Sinal ori- 
ginal 1-D. (b) Elemento estruturante plano sob o sinal empurrado de 
baixo para cima. (c) Abertura. (d) Elemento estruturante plano sobre 
sinal empurrado de cima para baixo. (e) Fechamento. 


* Às vezes, a abertura e o fechamento são ilustrados como o pro- 
cesso de rolar um círculo na superfície superior e inferior de uma 
curva. Em 3-D, o círculo se torna uma esfera, e os procedimentos 
resultantes são chamados de algoritmos de bola rolante. 


imagem. A Figura 9.36(b) mostra um elemento estru- 
turante plano em várias posições, empurrando para 
cima contra a superfície inferior da curva. A curva só- 
lida na Figura 9.36(c) é a abertura completa. Uma vez 
que o elemento estruturante é muito grande para ca- 
ber completamente dentro dos picos mais estreitos da 
curva, os topos desses picos foram cortados pela opera- 
ção morfológica de abertura e a quantidade retirada é 
proporcional à altura que o elemento estruturante foi 
capaz de alcançar no interior desse pico. Em geral, as 
aberturas são usadas para remover pequenos detalhes 
claros, enquanto não alteram os níveis de cinza globais 
nem os grandes elementos claros. 


A Figura 9.36(d) é uma ilustração gráfica do fecha- 
mento. Observe que o elemento estruturante é empurra- 
do para baixo à medida que percorre o topo da curva em 
todas as localizações. O fechamento, na Figura 9.36(e), é 
determinado encontrando os pontos mais baixos atingi- 
dos por qualquer parte do elemento estruturante confor- 
me este desliza pelo lado superior da curva. 


A operação de abertura dos níveis de cinza possui as 
seguintes propriedades: 


(a) f° baf 
(b) se ff, então (f ° b) (fe b) 
(c) (f° b)e b=f° b 
A notação er é usada para indicar que o domínio 
de e é um subconjunto do domínio de r, e também que 
e(x, y) < r(x, y)para qualquer (x, y) no dominio de e. 
Da mesma forma, a operação de fechamento possui 
as seguintes propriedades: 


(a) fife b 
(b) se ff, então (f, ° b)- (f, ° b) 


(c) (f+ b)+ b= feb 
A utilidade dessas propriedades é semelhante àque- 
la dos seus correspondentes binários. 


Exemplo 9.10 Ilustração da abertura e fechamento em 


níveis de cinza. 


A Figura 9.37 estende a 2-D os conceitos 1-D ilustra- 
dos na Figura 9.36. A Figura 9.37(a) é a mesma imagem que 
utilizamos no Exemplo 9.9, e a Figura 9.37(b) é a abertura 
obtida usando um elemento estruturante em forma de disco 
de altura unitária e raio de 3 pixels. Como esperado, a in- 
tensidade de todos os objetos claros na imagem diminuiu, 
dependendo de seus tamanhos em relação ao tamanho do 
ES. Comparando essa figura com a Figura 9.35(b), vemos 
que, ao contrário do resultado da erosão, a abertura teve 
um efeito imperceptível nos objetos escuros da imagem, e o 
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Figura 9.37 
raio de 3 pixels. (c) Fechamento usando um ES de raio 5. 


efeito sobre o fundo foi insignificante. Similarmente, a Figu- 
ra 9.37(c) mostra o fechamento da imagem com um disco 
de raio 5 (os pequenos pontos pretos são maiores que os pe- 
quenos pontos brancos, então é necessário um disco maior 
para obter resultados comparáveis aos da abertura). Nesta 
imagem, os objetos claros e o fundo foram muito pouco afe- 
tados, mas os objetos escuros foram atenuados, sendo que o 
grau de atenuação depende do tamanho relativo dos objetos 
em relação ao ES. 

= 


9.6.3 Alguns algoritmos morfológicos básicos em 
níveis de cinza 


Inúmeras técnicas morfológicas estão baseadas nos 
conceitos de morfologia em níveis de cinza introduzidos 
até o momento. Ilustraremos alguns desses algoritmos na 
discussão seguinte. 


Suavização morfológica 


Como a abertura suprime detalhes claros menores 
que o ES especificado, e o fechamento suprime os detalhes 
escuros, eles são comumente usados em conjunto, como 
filtros morfológicos para a suavização de imagens e remoção 
de ruídos. Considere a Figura 9.38(a), que mostra uma 
imagem da supernova Cygnus Loop adquirida na banda de 
raios X (ver Figura 1.7 para mais detalhes sobre esta ima- 
gem). Para fins da presente discussão, suponha que a região 
central clara é o objeto de interesse, e que os componentes 
menores são ruídos. O objetivo é eliminar o ruído. A Figura 
9.38(b) mostra o resultado da abertura da imagem original 
com um disco plano de raio 1 e, em seguida, o fechamen- 
to da abertura com um ES do mesmo tamanho. As figuras 
9.38(c) e (d) mostram os resultados da mesma operação 
utilizando discos de raios 3 e 5, respectivamente. Como es- 
perado, esta sequência mostra a remoção progressiva dos 
pequenos componentes em função do tamanho do ES. No 
último resultado, vemos que o objeto de interesse foi extraí- 
do. Os componentes de ruído na parte inferior da imagem 


(a) Imagem radiográfica em níveis de cinza de tamanho 448 x 425 pixels. (b) Abertura usando um ES em forma de disco com um 


não puderam ser removidos completamente por causa de 
sua densidade. 


Os resultados mostrados na Figura 9.38 basearam-se 
na abertura da imagem original e, em seguida, no fecha- 
mento da abertura. Um procedimento utilizado algumas 
vezes é a filtragem sequencial alternada, em que sequência de 
abertura-fechamento começa com a imagem original, mas 
os passos subsequentes executam a abertura e o fechamen- 
to sobre as imagens resultantes das etapas anteriores. Este 
tipo de filtragem é útil na análise automatizada de imagens, 
em que os resultados em cada etapa são comparados utili- 
zando uma métrica especificada. Geralmente, essa aborda- 
gem produz mais borramento para o mesmo tamanho de 
ES utilizado para o método ilustrado na Figura 9.38. 


Figura 9.38 (a) Imagem de 566 x 566 da supernova Cygnus Loop, 
adquirida na banda de raios X pelo telescópio Hubble da Nasa. (b) a 
(d) Resultados da realização da sequência abertura-fechamento na 
imagem original, com elementos estruturantes no forma de disco de 
raios 1, 3 e 5, respectivamente. (Imagem original: cortesia da Nasa.) 
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Gradiente morfológico 


A dilatação e a erosão podem ser usadas em con- 
junto com a subtração de imagens para obter o gradiente 
morfológico da imagem, conhecido como g, em que” 


g= (fb) - (fob) 


A dilatação engrossa regiões na imagem, e a ero- 
são as afina. A diferença entre esses resultados ressalta 
as fronteiras entre regiões. As áreas homogêneas não são 
afetadas (desde que o ES seja relativamente pequeno) e, 
por isso, a operação de subtração tende a eliminá-las. O 
resultado final é uma imagem cujas bordas são realçadas, 
e a contribuição das áreas homogêneas é atenuada, pro- 
duzindo um efeito semelhante ao dos filtros derivativos 
(gradiente). 


(9.6-11) 


A Figura 9.39 mostra um exemplo. A Figura 9.39(a) 
é uma tomografia computadorizada do crânio, e as próxi- 
mas duas figuras são a abertura e o fechamento com um 
ES de 3 x 3 e todos Is. Repare o espessamento e a redução 
mencionadas anteriormente. A Figura 9.39(d) é o gradien- 
te morfológico obtido usando a Equação 9.6-11, em que 
as fronteiras entre as regiões estão claramente delineadas, 
como era de esperar de uma imagem derivativa 2-D. 


Figura 9.39 


(a) Inagem 512 x 512 de uma tomografia computado- 
rizada da cabeça. (b) Dilatação. (c) Erosão. (d) Gradiente morfológico, 
calculado como a diferença entre (b) e (c). (Imagem original: cortesia 
do Dr. David R. Pickens, Universidade de Vanderbilt.) 


* Consulte a Seção 3.6.4 para uma definição do gradiente de uma 
imagem. 


Transformadas top-hat e bottom-hat 


Combinando a subtração de imagens com aberturas 
e fechamentos se produz o que conhecemos como trans- 
formadas top-hat e bottom-hat. A transformada top-hat de 
uma imagem em níveis de cinza f é definida como f me- 
nos sua abertura: 


Toalf) =f- (F b) 


Da mesma forma, a transformada bottom-hat de f é 
definida como o fechamento de f menos f: 


Baf) = (feb) -f 


Uma das principais aplicações dessas transformadas 
está na remoção de objetos de uma imagem usando um 
elemento estruturante na operação de abertura ou de fe- 
chamento que não se encaixa nos objetos a serem remo- 
vidos. A operação de diferença produz então uma imagem 
na qual apenas os componentes removidos permanecem. 
A transformada top-hat é usada para objetos claros sobre 
um fundo escuro, e a transformada bottom-hat é usada 
para o objetivo contrário. Por essa razão, os nomes top-hat 


(9.6-12) 


(9.6-13) 


branco e top-hat preto, respectivamente, são usados com 
frequência quando se fala dessas duas transformadas. 


Um uso importante das transformadas top-hat é na 
correção dos efeitos da iluminação não uniforme. Como 
veremos no capítulo seguinte, a iluminação adequada 
(uniforme) desempenha um papel fundamental no pro- 
cesso de extração de objetos do fundo da imagem. Esse 
processo, chamado segmentação, é um dos primeiros pas- 
sos realizados na análise automatizada de imagens. Uma 
metodologia usada frequentemente na segmentação é a 
limiarização da imagem de entrada. 


Para ilustrar, veja a Figura 9.40 (a), que mostra uma 
imagem 600 x 600 de grãos de arroz. Essa imagem foi 
obtida em condições de iluminação não uniforme, como 
evidenciado pela área mais escura na parte inferior direita 
da imagem. A Figura 9.40(b) mostra o resultado da limia- 
rização pelo método de Otsu, um método ótimo de limiari- 
zação que será discutido na Seção 10.3.3. O resultado da 
iluminação não uniforme causou erros de segmentação 
na área escura (vários grãos de arroz não foram extraí- 
dos do fundo), bem como na parte superior esquerda da 
imagem, onde partes do fundo foram erroneamente seg- 
mentadas. A Figura 9.40(c) mostra a abertura da imagem 
com um disco de raio 40. Este ES era grande o suficien- 
te para não caber dentro de nenhum dos objetos. Como 
resultado, os objetos foram eliminados deixando apenas 
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Figura 9.40 Usando a transformada top-hat para a correção de sombreamento. (a) Imagem original de tamanho 600 x 600 pixels. (b) Imagem 
após a limiarização. (c) Imagem aberta usando um ES em forma de disco de raio 40. (d) Transformada top-hat (a imagem menos a sua abertura). 


(e) Imagem top-hat após a limiarização. 


uma aproximação do fundo. O padrão de sombreamen- 
to é evidente nessa imagem. Subtraindo essa imagem da 
original (isto é, realizando uma transformada top-hat), o 
fundo deveria ficar mais uniforme. Isso foi o que ocorreu 
de fato, como mostra a Figura 9.40(d). O fundo não ficou 
perfeitamente uniforme, mas as diferenças entre os ex- 
tremos claros e escuros tornaram-se menores e isso foi o 
suficiente para produzir um resultado correto de segmen- 
tação em que todos os grãos de arroz foram detectados, 
como mostra a Figura 9.40(e). Essa imagem foi obtida 
pelo método de Otsu, como a anterior. 


Granulometria 


Em termos de processamento de imagem, a granulo- 
metria é um campo que lida com a determinação da dis- 
tribuição de tamanhos de partículas em uma imagem. Na 
prática, as partículas quase nunca estão separadas clara- 
mente, o que faz da contagem de partículas pela identifi- 
cação individual uma tarefa difícil. A morfologia pode ser 
usada para estimar a distribuição do tamanho das partí- 
culas indiretamente, sem a necessidade de identificar e 
medir cada partícula na imagem. 


A abordagem em princípio é simples. Com partícu- 
las de formato regular, que são mais claras que o fundo, o 
método consiste na aplicação de aberturas com elemen- 
tos estruturantes de tamanho crescente. A ideia básica 
é que as operações de abertura de tamanhos específicos 


devem ter maior efeito sobre as regiões da imagem de en- 
trada que contenha partículas de tamanho semelhante. 
Para cada abertura, a soma dos valores de pixel na aber- 
tura é calculada. Essa soma, chamada às vezes de área de 
superfície, diminui conforme se aumenta o tamanho do ES, 
já que, como vimos anteriormente, as aberturas reduzem 
a intensidade dos elementos claros. Esse procedimento 
produz um arranjo matricial 1-D desses números, e cada 
elemento do arranjo é igual à soma dos pixels na abertu- 
ra para o tamanho do ES correspondente a essa posição 
no arranjo. Para salientar as mudanças entre as aberturas 
sucessivas, calculamos a diferença entre os elementos ad- 
jacentes do arranjo matricial 1-D. Para visualizar os resul- 
tados, as diferenças são exibidas graficamente. Os picos 
no gráfico são um indicativo das distribuições de tama- 
nho predominante das partículas na imagem. 


Por exemplo, considere a Figura 9.41 (a), que é uma 
imagem de pinos de madeira de dois tamanhos dominan- 
tes diferentes. Os grãos de madeira nos pinos podem in- 
troduzir variações nas aberturas, por isso a suavização é 
uma etapa importante de pré-processamento nesse caso. 
A Figura 9.41(b) mostra a imagem suavizada usando o 
filtro de suavização morfológico discutido anteriormente, 
com um disco de raio 5. As figuras 9.41 (c) a (f) mostram 
exemplos de aberturas de imagem com discos de raios 
10, 20, 25 e 30. Repare, na Figura 9.41 (d), que a con- 
tribuição de intensidade devida aos pinos pequenos foi 
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Figura 9.41 


(a) Imagem de tamanho 531 x 675 de pinos de madeira. (b) Imagem suavizada. (c) a (f) Aberturas de (b) com discos de raios iguais 


a 10, 20, 25 e 30 pixels, respectivamente. (Imagem original: cortesia do Dr. Steve Eddins, The MathWorks, Inc.) 


praticamente eliminada. Na Figura 9.41(e), a contribui- 
cao dos pinos grandes foi significativamente reduzida e, 
na Figura 9.41 (f), mais ainda. (Observe na Figura 9.41 (e) 
que o pino grande na parte superior direita da imagem é 
muito mais escuro do que os outros em razão de seu ta- 
manho menor. Essa informação seria útil se estivéssemos 
tentando detectar pinos com defeitos). 


A Figura 9.42 mostra um gráfico do arranjo de di- 
ferenças. Como mencionado anteriormente, esperamos 
diferenças significativas (picos no gráfico) em torno dos 
raios em que o ES é grande o suficiente para abranger 
um conjunto de partículas com aproximadamente o mes- 
mo diâmetro. O resultado na Figura 9.42 tem dois picos 
distintos, indicando claramente a presença de dois tama- 
nhos de objetos dominantes na imagem. 


Segmentação de texturas 


A Figura 9.43(a) mostra uma imagem ruidosa de 
bolhas escuras sobrepostas sobre um fundo claro. A ima- 


x 10° 


Diferenças na área de superficie 


Figura 9.42 Diferenças na área de superfície em função do raio do 
disco do ES, r. Os dois picos são indicativos de dois tamanhos de par- 
tículas dominantes na imagem. 


gem tem duas regiões de textura: uma região composta 
de bolhas grandes à direita e uma região à esquerda com- 
posta por bolhas menores. O objetivo é encontrar uma 
fronteira entre as duas regiões com base em seu conteúdo 
de textura (discutiremos a textura na Seção 11.3.3). Como 
observado anteriormente, o processo de subdividir uma 
imagem em regiões é chamado de segmentação, que é o 
tema do Capítulo 10. 

Os objetos de interesse são mais escuros do que o fun- 
do, e sabemos que, se fecharmos a imagem com um ele- 
mento estruturante maior do que as bolhas menores, elas 


Figura 9.43 Segmentação de texturas. (a) Uma imagem 600 x 600 
que consiste de dois tipos de bolhas. (b) Imagem com pequenas bolhas 
removidas pelo fechamento de (a). (c) Imagem cujos espaços claros en- 
tre as grandes bolhas foram removidos efetuando a abertura de (b). (d) 
Imagem original com a fronteira entre as duas regiões em (c) sobrepos- 
tas. A fronteira foi obtida por uma operação de gradiente morfológico. 


serão removidas. O resultado na Figura 9.43(b), obtido pelo 
fechamento da imagem de entrada usando um disco com 
um raio de 30 pixels, mostra que, na verdade, isso é o que 
acontece (o raio das bolhas é de aproximadamente 25 pi- 
xels). Portanto, neste momento, temos uma imagem com 
grandes bolhas escuras sobre um fundo claro. Se abrirmos 
esta imagem com um elemento estruturante que seja gran- 
de em relação à separação entre essas bolhas, o resultado 
final deve ser uma imagem em que os espaços claros entre 
as bolhas foram removidos, deixando as bolhas e os espaços 
entre elas igualmente escuros. A Figura 9.43(c) mostra o 
resultado obtido usando um disco de raio 60. 

Realizando um gradiente morfológico sobre essa ima- 
gem com, digamos, um ES de 3 x 3 de 1s, obteremos a 
fronteira entre as duas regiões. A Figura 9.43(d) mostra 
a fronteira obtida a partir da operação de gradiente mor- 
fológico sobreposto na imagem original. Todos os pixels à 
direita da fronteira pertencem à região de textura carac- 
terizada pelas bolhas grandes, e o oposto para os pixels à 
esquerda da fronteira. Para entender esse exemplo com 
mais detalhes, utilize a analogia gráfica para abertura e fe- 
chamento, ilustrada na Figura 9.36. 


9.6.4 Reconstrução morfológica em níveis de cinza 


A reconstrução morfológica em níveis de cinza é de- 
finida basicamente da mesma forma que na Seção 9.5.9 
para imagens binárias. Considere que fe g sejam o mar- 
cador e a máscara, respectivamente. Supomos que ambas 
são imagens em níveis de cinza do mesmo tamanho e que 
f< g. A dilatação geodésica de tamanho 1 de f com relação 
ag é definida como” 


DAP=(fObAg 


onde A denota o operador mínimo pontual. Essa equação 
indica que a dilatação geodésica de tamanho 1 é obtida 
calculando primeiro a dilatação de fpor b e, depois, sele- 
cionando o mínimo entre o resultado e g em cada ponto 
(x, y). A dilatação é dada pela Equação 9.6-2, se b for 
um ES plano, ou pela Equação 9.6-4, se ele não for. A 
dilatação geodésica de tamanho n de f em relação a g é 
definida como 


(9.6-14) 


(9.6-15) 
com DY(f)= f 


Da mesma forma, a erosão geodésica de tamanho 1 de 


fem relação a g é definida como 
EP(N=(febvg (9.6-16) 


* Entende-se que essas expressões são funções de (x, y). Omitimos 
as coordenadas para simplificar a notação. 
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onde V denota o operador máximo pontual. A erosão geo- 
désica de tamanho n é definida como” 


E p= E) (9.6-17) 


com E(f) = f. 

A reconstrução morfológica por dilatação de uma ima- 
gem de máscara em níveis de cinza, g, por uma imagem 
de marcador em níveis de cinza, f, é definida como a dila- 


tação geodésica de fem relação a g, que sofreu iterações 
até a estabilidade ser atingida, ou seja, 


RP (f)= DF) 


( 


(9.6-18) 


com k de forma que D\(f)= Df). A reconstrução 
morfológica por erosão de g por f é igualmente definida 


como 
Eip pk 
RE(S) = B(f) 

com k de forma que E(f) = Ef). 

Como no caso binário, a abertura por reconstru- 
ção de imagens em níveis de cinza primeiro efetua a erosão 
na imagem de entrada e depois a usa como marcador. A 
abertura por reconstrução de tamanho n de uma imagem f 
é definida como a reconstrução por dilatação de fa partir 
da erosão de tamanho n de f isto é, 


OW (f) = R? [(f © nb)] 


em que (f© nb) denota n erosões de f por b, como expli- 
cado na Seção 9.5.7. Lembremos da discussão da Equação 
9.5-27 para imagens binárias, cujo objetivo da abertura 
por reconstrução era preservar o formato dos componen- 
tes da imagem que permaneceram após a erosão. 


(9.6-19) 


(9.6-20) 


Similarmente, o fechamento por reconstrução de tama- 
nho n de uma imagem f é definido como a reconstrução 
por erosão de fa partir da dilatação de tamanho n de f, 
isto é, 


CO (f) = RF [Uf © nb)] 


na qual (f @ nb) denota n dilatações de f por b. Por cau- 
sa da dualidade, o fechamento por reconstrucao de uma 
imagem pode ser obtido complementando a imagem, ob- 
tendo a abertura por reconstrução e complementando o 
resultado. Finalmente, como mostra o exemplo a seguir, 
uma técnica útil, chamada top-hat por reconstrução, con- 
siste em subtrair de uma imagem a sua abertura por re- 
construção. 


(9.6-21) 


“ Veja o Exercício 9.33 para uma lista de relações duais entre as 
expressões mostradas nessa seção. 
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Exemplo 9.11 Utilizando a reconstrução morfológica 


para uniformizar um fundo complexo. 


Neste exemplo, ilustraremos o uso da reconstrução em 
níveis de cinza em vários passos para normalizar o fundo irre- 
gular da imagem na Figura 9.44(a), deixando apenas o texto 
em um fundo de intensidade constante. A solução deste pro- 
blema é um bom exemplo do poder dos conceitos de morfo- 
logia. Começamos eliminando o reflexo horizontal na parte 
superior das teclas. Os reflexos são maiores do que qualquer 
um dos caracteres na imagem; por isso, devemos ser capa- 
zes de eliminá-los realizando uma abertura por reconstrução 
usando uma longa linha horizontal na operação de erosão. 
Essa operação vai produzir um fundo contendo as teclas e 
seus reflexos. Subtraindo isso da imagem original (ou seja, 
realizando um top-hat por reconstrução), eliminamos os refle- 
xos horizontais e as variações no fundo da imagem original. 

A Figura 9.44(b) mostra o resultado da abertura por re- 
construção da imagem original usando uma linha horizontal 
de tamanho 1 x 71 pixels na operação de erosão. Poderíamos 
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Figura 9.44 


ter usado apenas uma abertura para remover os caracteres, 
mas o fundo resultante não teria sido tão uniforme como mos- 
tra a Figura 9.44(c) (por exemplo, compare as regiões entre as 
teclas em ambas as imagens). A Figura 9.44(d) mostra o resul- 
tado da subtração da Figura 9.44(b) da Figura 9.44(a). Como 
esperado, os reflexos horizontais e as variações do fundo fo- 
ram suprimidos. Para efeito de comparação, a Figura 9.44(e) 
mostra o resultado de realizar apenas a transformação top-hat 
(ou seja, subtraindo a abertura “padrão” da imagem, como dis- 
cutido anteriormente nesta seção). Como era esperado a par- 
tir das características do fundo da Figura 9.44(c), o fundo da 
Figura 9.44(e) não é tão uniforme quanto na Figura 9.44(d). 


O próximo passo é eliminar os reflexos verticais das bor- 
das das teclas, que são bastante visíveis na Figura 9.44(d). 
Podemos fazer isso realizando uma abertura por reconstru- 
ção com um ES de formato de linha cuja amplitude é quase 
igual aos reflexos (aproximadamente 11 pixels neste caso). 
A Figura 9.44(f) mostra o resultado de executar essa opera- 
ção na Figura 9.44(d). Os reflexos verticais foram elimina- 


(a) Imagem original de tamanho 1.134 x 1.360 pixels. (b) Abertura por reconstrução de (a) usando uma linha horizontal de 


71 pixels de comprimento na erosão. (c) Abertura de (a) utilizando a mesma linha. (d) Top-hat por reconstrução. (e) Top-hat. (f) Abertura por 
reconstrução de (d) usando uma linha horizontal de 11 pixels de comprimento. (g) Dilatação de (f) usando uma linha horizontal de 21 pixels de 
comprimento. (h) Mínimo de (d) e (g). (i) Resultado final da reconstrução. (Imagem original: cortesia do Dr. Steve Eddins, The MathWorks, Inc.) 


dos, mas também foram suprimidos os elementos verticais 
finos que são caracteres válidos (por exemplo, o I em SIN), 
então temos de encontrar uma maneira de restaurar este úl- 
timo. Os caracteres eliminados estão muito perto de outros 
caracteres; então, se dilatarmos os caracteres restantes na 
horizontal, os caracteres dilatados vão se sobrepor na área 
ocupada anteriormente pelos caracteres eliminados. A Fi- 
gura 9.44(g), obtida dilatando a Figura 9.44(f), com um ES 
de linha de tamanho 1 x 21, mostra que realmente era este 
o caso. 
Tudo o que resta neste momento é recuperar os carac- 
teres eliminados. Considere uma imagem formada como o 
mínimo pontual entre a imagem dilatada na Figura 9.44(g) 
e a imagem do top-hat por reconstrução da Figura 9.44(d). 
A Figura 9.44(h) mostra a imagem mínima (embora este 
resultado pareça estar perto de nosso objetivo, repare que 
o I em SIN ainda está faltando). Usando essa imagem como 
um marcador e a imagem dilatada como a máscara de re- 
construção em níveis de cinza (Equação 9.6-18), obtemos o 
resultado final na Figura 9.44(i). Essa imagem mostra que 
todos os caracteres foram devidamente extraídos do fundo 
original e irregular, incluindo o fundo das teclas. O fundo da 
Figura 9.44(i) é totalmente uniforme. 
= 


Resumo 


Os conceitos e as técnicas morfológicas apresenta- 
dos neste capítulo constituem um poderoso conjunto de 
ferramentas para a extração de características de interes- 
se em uma imagem. Um dos aspectos mais atraentes do 
processamento morfológico de imagens é o fundamento 
teórico extenso a partir do qual as técnicas morfológicas 
evoluíram. Uma vantagem significativa em termos de im- 
plementação computacional consiste no fato de a dilata- 
ção e a erosão serem operações primitivas que são a base 
para uma ampla classe de algoritmos morfológicos. Como 
mostrará o próximo capítulo, a morfologia pode ser usa- 
da como base para o desenvolvimento de procedimentos de 
segmentação de imagens com inúmeras aplicações. Con- 
forme será discutido no Capítulo 11, as técnicas morfo- 
lógicas também desempenham um papel importante nos 
processos de descrição da imagem. 


Referências e leitura complementar 


O livro de Serra (1982) é uma referência funda- 
mental no processamento morfológico de imagens. Veja 
também Serra (1988), Giardina e Dougherty (1988) e Ha- 
ralick e Shapiro (1992). Referências básicas adicionais re- 
levantes para nossa discussão incluem Blum (1967), Lan- 
tuéjoul (1980), Maragos (1987) e Haralick et al. (1987). 
Para uma visão geral da morfologia tanto binária quanto 
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das escalas de cinza, veja Basart e Gonzalez (1992) e 
Basart et al. (1992). Este conjunto de referências ofe- 
rece uma base ampla para o material abordado nas se- 
ções 9.1 a 9.4. Para uma boa visão geral do material das 
seções 9.5 e 9.6, ver o livro de Soille (2003). 


Questões importantes da implementação de algo- 
ritmos morfológicos, como os indicados nas seções 9.5 
e 9.6, são exemplificadas nos trabalhos de Jones e Sval- 
be (1994), Park e Chin (1995), Sussner e Ritter (1997), 
Anelli et al. (1998) e Shaked e Bruckstein (1998). Um 
artigo de Vincent (1993) é especialmente importante em 
termos de detalhes práticos para a implementação de al- 
goritmos morfológicos em níveis de cinza. Veja também o 
livro de Gonzalez, Woods, e Eddins (2004). 


Para uma leitura adicional sobre a teoria e as apli- 
cações de processamento morfológico de imagens, veja 
o livro de Goutsias e Bloomberg (2000) e uma edição 
especial da Pattern Recognition (2000). Veja também uma 
compilação de referências de Rosenfeld (2000). Os livros 
de Marchand-Maillet e Sharaiha (2000), sobre o proces- 
samento de imagens binárias, e de Ritter e Wilson (2001) 
sobre a álgebra da imagem também são de interesse. Os 
trabalhos atuais sobre a aplicação de técnicas morfológi- 
cas para processamento de imagem aparece nos artigos 
escritos por Kim (2005) e Evans e Liu (2006). 


Exercícios” 


9.1 As imagens digitais neste livro encontram-se dentro 
de uma grade quadrada, e os pixels podem ser 4, 8, 
ou m-conectados. No entanto, outras modalidades de 
grade também são possíveis. Especificamente, uma 
grade hexagonal que leva à conectividade-6 é usada 
por vezes (veja a figura a seguir). 


(a) Como você converteria uma imagem de uma 
grade quadrada em uma grade hexagonal? 


(b) Discuta sobre a invariância de forma na rotação 
de objetos representados em uma grade quadra- 
da em oposição a uma grade hexagonal. 


(c) É possível ter configurações ambíguas diagonais 
em uma grade hexagonal, como ocorre com a co- 
nectividade-8? (ver Seção 2.5.2). 


o... . o... ooo... .....u4 


eo 8 © © © © © © ..... cu c. o... .. .. o’ 
e. e... e... .... oo... .......« 
Cr e... e... 0.0... . e... .. .. 
© 8 © © © © © © © ee .. qo... ...... .. 
ee oc. o... ooo... e... . a. 


eo 8 © © © © e... e... o... . .. ... e... 


* Soluções detalhadas dos exercícios marcados com um asterisco 
podem ser encontradas no site do livro. O site também contém 
sugestões de projetos baseados no material neste capítulo. 
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9.2 


9.3 


9.4 


*9,5 
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*(a) Desenvolva um algoritmo morfológico para 
converter uma fronteira binária 8-conectada em 
uma fronteira m-conectada (ver Seção 2.5.2). 
Você pode assumir que a fronteira está total- 
mente conectada e que possui espessura de um 
pixel. 


(b 


~ 


O funcionamento de seu algoritmo exige mais 
do que uma iteração com cada elemento estru- 
turante? Explique. 


(c) O desempenho de seu algoritmo é independen- 
te da ordem em que os elementos estruturantes 
são aplicados? Se sua resposta for afirmativa, de- 
monstre. Senão, mostre um exemplo que ilustre 
a dependência de seu procedimento na ordem 
da aplicação dos elementos estruturantes. 


A erosão de um conjunto A pelo elemento estrutu- 
rante B é um subconjunto de A sempre que a origem 
de B esteja contida em B. Dê um exemplo em que a 
erosão AO B esteja fora, ou parcialmente fora, de A. 


As quatro afirmações seguintes são verdadeiras. Pro- 
ponha um argumento que estabeleça o(s) motivo(s) 
das suas validades. A parte (a) em geral é verdadeira. 
As partes (b) até (d) são verdadeiras apenas para os 
conjuntos digitais. Para mostrar a validade de (b) até 
(d), desenhe uma grade discreta e quadrada (como 
mostrado no Exercício 9.1) e ofereça um exemplo 
para cada caso utilizando conjuntos compostos por 
pontos nesta grade. (Dica: mantenha o número de 
pontos em cada caso o mais baixo possível até esta- 
belecer a validade das declarações.) 


*(a) A erosão de um conjunto convexo por um ele- 
mento estruturante convexo é um conjunto 
convexo. 


*(b) A dilatação de um conjunto convexo por um 
elemento estruturante convexo não é necessa- 
riamente sempre convexo. 


(c) Os pontos em um conjunto convexo digital 
nem sempre estão conectados. 


(d) É possível ter um conjunto de pontos em que a 
linha que une cada dupla de pontos no conjun- 
to esteja dentro do conjunto sem que o conjunto 
seja convexo. 


Com referência à imagem mostrada, encontre 
o elemento estruturante e a(s) operação(ões) mor- 
fológica(s) que produziu(ram) cada um dos resul- 
tados mostrados nas imagens (a) até (d). Mostre 
claramente a origem de cada elemento estrutu- 
rante. As linhas tracejadas mostram a fronteira do 
conjunto original e foram incluídas apenas para 
referência. Repare que em (d) todos os cantos são 
arredondados. 


9.6 Considere que A seja o conjunto sombreado mostrado 


na figura a seguir. Utilize os elementos estruturantes 
exibidos (os pontos pretos mostram a origem). Esboce 
o resultado das seguintes operações morfológicas: 


(a) (ACB OBR 
(b) (ACB) OB 
(c) (ABB OB 
(d) (A@B) OB 


A 
— L 
° ° L/4 L/2 
—, 
L/2 
L/4 
L/4 L 
B! B? B? B* 


KOST 


9.8 


*9,9 


9.10 


*9.11 


9.12 


9.13 


*9.14 


9.15 


9.16 


(a) Qual é o efeito limitante de dilatar repetidamente 
uma imagem? Suponha que um elemento estru- 
turante trivial (um ponto) não seja utilizado. 


(b) Qual é a menor imagem a partir da qual você 
pode começar para que sua resposta na parte (a) 
permaneça válida? 


(a) Qual é o efeito limitante de erodir repetidamente 
uma imagem? Suponha que um elemento estru- 
turante trivial (um ponto) não seja utilizado. 


(b) Qual é a menor imagem a partir da qual você 
pode começar para que sua resposta na parte (a) 
permaneça válida? 


Uma definição alternativa da erosão é 


AOB = [veZ?|wu+bEA, para todos be B} 
Mostre que essa definição é equivalente à definição 
da Equação 9.2-1. 

(a) Mostre que a definição de erosão dada no Exerci- 
cio 9.9 é equivalente à outra definição de erosão: 
ASB={()\(A), 
beB 


(Se -b é substituída por b, esta expressão é chamada 
de subtração de Minkowsky de dois conjuntos.) 


(b) Mostre que a expressão em (a) é equivalente 
também à definição da Equação 9.2-1. 


Uma definição alternativa de dilatação é 


AGB=[wveZ|y=a+b,paraaeAebeB) 
Mostre que essa definição e a definição na Equação 
9.2-3 são equivalentes. 


(a) Mostre que a definição de dilatação dada no 
Exercício 9.11 é equivalente à outra definição de 
dilatação: 


AGB=[J(4), 


beB 


(Esta expressão também é chamada de soma de Min- 
kowsky de dois conjuntos.) 


(b) Mostre que a expressão em (a) também é equiva- 
lente à definição da Equação 9.2-3. 


Prove a validade da expressão de dualidade na Equa- 
ção 9.2-6. 
Prove a validade da expressão de dualidade 
(a) (A + BS =(4'0 Ê) e (Ao B) = (A° +Ê) 
Prove a validade das expressões a seguir: 
*(a) Ao Bé um subconjunto (subimagem) de 4. 


(b) Se C é um subconjunto de D, então Co B é um 
subconjunto de De B. 


(c) (Ac B)oB=AcB. 
Demonstre a validade das seguintes expressões (assu- 


me-se que a origem de B está contida em B e que os 
exercícios 9.14 e 9.15 são verdadeiros): 


9.17 


*9.18 
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(a) A é um subconjunto (subimagem) de Ae B. 


(b) Se C é um subconjunto de D, então C e B é um 
subconjunto de D e B. 


(c) (AB) B=40B, 
Considere a imagem e o elemento estruturante mos- 


trados. Esboce como devem ficar os conjuntos C, D, E 
e F na seguinte sequência de operações: C = A O B; 


D =C ® B; E =D $B; e F = E OB. O conjunto inicial A 
consiste de todos os componentes da imagem mostra- 
dos em branco, com exceção do elemento estruturante 
B. Repare que essa sequência de operações é simples- 
mente a abertura de A por B, seguida do fechamento 
dessa abertura por B. Você pode assumir que B é gran- 
de o suficiente para incluir cada um dos componentes 
distorcidos. 


Considere as três imagens binárias mostradas na figu- 
ra a seguir. A imagem à esquerda está composta por 
quadrados com lados de tamanhos 1, 3, 5,7,9 e 15 
pixels. A imagem no meio foi gerada pela erosão da 
imagem da esquerda com um elemento estruturan- 
te quadrado de 1s, de tamanho 13 x 13 pixels, com 
o objetivo de eliminar todos os quadrados, exceto os 
maiores. Finalmente, a imagem da direita é o resulta- 
do da dilatação da imagem no centro com o mesmo 
elemento estruturante, com o objetivo de restaurar os 
quadrados maiores. Você sabe que a erosão seguida da 
dilatação é a abertura de uma imagem, e sabe também 
que a abertura geralmente não restaura os objetos à 
sua forma original. Explique porque a reconstrução 
total dos quadrados grandes foi possível neste caso. 


9.19 


Esboce o resultado da aplicação da transformada hit-or- 
-miss à imagem e ao elemento estruturante mostrado. 
Indique claramente a origem e a borda que você sele- 
cionou para o elemento estruturante. 


452 Processamento digital de imagens 


Elemento 
estruturante 


Imagem 


*9.20 Três características (lago, baía e segmento de linha) 


9.21 


9.22 


úteis para diferenciar os objetos afinados na imagem 
são mostradas na figura a seguir. Desenvolva um algo- 
ritmo lógico/morfológico de diferenciação entre essas 
formas. A entrada para o algoritmo seria uma dessas 
três formas. A saída deve ser a identidade da entrada. 
Você pode assumir que as características são de 1 pixel 
de espessura e que estão totalmente conectadas entre si. 
No entanto, podem aparecer em qualquer orientação. 


Lago Baía Segmento de linha 
Discuta que resultado você esperaria em cada um dos 


seguintes casos: 


(a) O ponto de partida do algoritmo de preenchi- 
mento de buracos da Seção 9.5.2 é um ponto na 
fronteira do objeto. 


(b) O ponto de partida no algoritmo de preenchi- 
mento de buracos está fora da fronteira. 


(c) Esboce como ficaria o fecho convexo da figura no 
Exercício 9.6 calculado com o algoritmo mostra- 
do na Seção 9.5.4. Suponha que L = 3 pixels. 


*(a) Discuta o efeito do uso do elemento estruturante 
da Figura 9.15(c) para a extração de fronteiras, 
em vez daquele mostrado na Figura 9.13(b). 


(b) Qual seria o efeito de usar um elemento estru- 
turante 3 x 3 composto por todos os Is no algo- 
ritmo de preenchimento de buracos da Equação 
9.5-2, em vez do elemento estruturante da Fi- 
gura 9.15(c)? 


9.23 *(a) Proponha um método (usando qualquer uma das 


técnicas mostradas nas seções 9.1 até 9.5) para 
automatizar o exemplo da Figura 9.16. Você pode 
considerar que as esferas não se tocam e que nin- 
guém tocou na borda da imagem. 


*9,24 


9.25 


9.26 


*9,27 


9.28 


*9.29 


9.30 


*931 
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(b) Repita (a), mas desta vez permitindo que as es- 
feras se toquem de forma arbitrária, inclusive to- 
cando a borda da imagem. 


O algoritmo dado na Seção 9.5.3 para extração dos 
componentes conexos requer que um ponto seja co- 
nhecido em cada componente conexo, a fim de extrair 
todos eles. Suponha que você receba uma imagem bi- 
nária contendo um número arbitrário (desconhecido) 
de componentes conexos. Proponha um processo to- 
talmente automatizado para extrair todos os compo- 
nentes conexos. Suponha que os pontos pertencentes 
aos componentes conexos são rotulados com 1, e os 
pontos de fundo são rotulados com 0. 


Proponha uma expressão com base na reconstrução 
por dilatação capaz de extrair todos os buracos em 
uma imagem binária. 

Em relação ao algoritmo de preenchimento de bura- 
cos da Seção 9.5.9: 


(a) Explique o que aconteceria se todos os pontos da 
borda de ffossem 1. 


(b) Se o resultado em (a) é o que você esperava, 
explique o porquê. Se o resultado não for o es- 
perado, explique como você poderia modificar o 
algoritmo para que ele funcione como desejado. 

Explique o que aconteceria na erosão e dilatação biná- 

rias se o elemento estruturante fosse um ponto único, 

com valor 1. Dê o(s) motivo(s) para sua resposta. 

Conforme explicado na Equação 9.5-27 e na Seção 

9.6.4, a abertura por reconstrução preserva a forma 

dos componentes da imagem que permanecem após 

a erosão. O que faz o fechamento por reconstrução? 

Mostre que a erosão e a dilatação geodésica (Seção 

9.5.9) são duais em relação à complementação de con- 


juntos. Isto é, mostre que E!” (F) = [DY [pe (Fº ] 


Ge Ge 
[o 
: 1 -1 c 
e, inversamente, que D(F) = | E LES: (FS | 
Suponha que o elemento estruturante é simétrico em 
torno de sua origem. 


Mostre que a reconstrução por dilatação e a re- 
construção por erosão (Seção 9.5.9) são duais em 
relação à complementação de conjuntos. Isto é, 


mostre que R$(F)= 


> Cc 
REF). e vice-versa, que 


RE(P)= [REF Suponha que o elemento es- 
truturante é simétrico em torno de sua origem. 
Crie um argumento mostrando que: 

(a) [(7 SnB)] = (Fº nB), onde (F ©nB) indica 

n erosões de F por B. 

(b) [(F @nB)| = (F° © nB). 

Mostre que o fechamento binário por recons- 
trução é o dual da abertura por reconstrução 
no que diz respeito à complementação de con- 


juntos: o (Py=[ce(r)], e, da mesma forma 
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cC™(F)= Laat Suponha que o elemento es- 
truturante é simétrico em torno de sua origem. 
Prove a validade das expressões a seguir de morfolo- 
gia em níveis de cinza. Você pode assumir que b é um 
elemento estruturante plano. Lembre-se que f'(x, y) = 
fx, y), e que b(x,y) = b(-x,—9). 

*(a) Dualidade da erosão e da dilatação: (f Sb) = 

f'ebe(feb/=f ob. 


(b) (f +b} = f'o be (fo bf = feb. 
"9 Df) = lenja] eny- 
[pW 


ge 


| DE NE Considere um elemento es- 
a 


truturante simétrico. 
(d) RAP =[RUS)] e= 


(e) [(fonb| =f @nb), onde (f&nb) indica n erosões 
de fpor b. Também que [(f @ nb)! = (f° © nb). 

o OP N=[CLUFI] e cry o] Supo- 
nha que o elemento estruturante seja simétrico 
em torno de sua origem. 


€ 


9.34 Na Figura 9.43, uma fronteira entre as diferentes 


9.35 


regiões de textura foi criada sem dificuldades. Con- 
sidere a imagem a seguir, que mostra uma região 
de pequenos círculos englobados por uma região de 
círculos maiores. 


(a) Será que o método usado para gerar a Figura 
9.43(d) funcionaria com esta imagem tam- 
bém? Explique seu raciocínio, incluindo as 
suposições que você precisa fazer para que o 
método funcione. 


(b) Se a sua resposta for sim, esboce a forma que fi- 
caria a fronteira. 


Uma imagem em níveis de cinza, f(x, y), é corrompida 
por picos de ruído que não se sobrepõem e que po- 
dem ser modelados como pequenos artefatos cilíndri- 
cos de raios Rac SRE amplitude A Ses 
A 


máx” 
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*(a) Desenvolva uma metodologia de filtragem mor- 
fológica para limpar a imagem. 
(b) Repita (a), mas desta vez imagine que há sobre- 
posição de, no máximo, quatro picos de ruído. 


Uma etapa de pré-processamento para um aplicativo 
de microscopia aborda o problema de isolar partículas 
redondas individuais de partículas semelhantes que 
se sobrepõem em grupos de duas ou mais partículas 
(ver imagem a seguir). Partindo do princípio de que 
todas as partículas são do mesmo tamanho, proponha 
um algoritmo morfológico que produza três imagens 
que possuam, respectivamente: 


*(a) Apenas partículas que se fundiram com a borda 
da imagem. 


(b) Apenas partículas sobrepostas. 
(c) Apenas partículas que não se sobrepõem. 


Uma fábrica de produção de alta tecnologia ganha um 
contrato com o governo para fabricar máquinas de 
lavar de alta precisão, com a forma mostrada na figu- 
ra a seguir. O contrato exige que a forma de todas as 
máquinas seja inspecionada por um sistema de ima- 
gem. Nesse contexto, a inspeção da forma refere-se a 
irregularidades no formato arredondado nas bordas 
internas e externas das máquinas. Você pode assu- 
mir o seguinte: (1) uma imagem “de ouro” (perfeita 
no que diz respeito ao problema) de uma máquina 
de lavar aceitável está disponível; e (2) a imagem e 
os sistemas de posicionamento utilizados atualmente 
possuem precisão alta o suficiente para permitir que 
você ignore os erros devidos à digitalização e ao posi- 
cionamento. Você foi contratado como consultor para 
ajudar a especificar a parte de inspeção visual do sis- 
tema. Proponha uma solução baseada nas operações 
morfológicas/lógicas. Sua resposta deve estar na for- 
ma de um diagrama de blocos. 


10 Segmentação de imagens 


O todo é igual à soma das suas partes. 
Euclides 


Capítulo 


O todo é maior que a soma de suas partes. 
Max Wertheimer 


Apresentação 


O material do capítulo anterior começou uma transição dos métodos de processamento de imagem cujas en- 
tradas e saídas são imagens para métodos em que as entradas são imagens, mas as saídas são atributos extraídos 
dessas imagens (no sentido definido na Seção 1.1). A segmentação é um passo importante nessa direção. 


A segmentação subdivide uma imagem em regiões ou objetos que a compõem. O nível de detalhe em que 
a subdivisão é realizada depende do problema a ser resolvido. Ou seja, a segmentação deve parar quando 
os objetos ou as regiões de interesse de uma aplicação forem detectados. Por exemplo, na inspeção auto- 
matizada de componentes eletrônicos, o interesse está em analisar as imagens dos produtos com o intuito 
de determinar a presença ou ausência de anomalias específicas, como a falta de componentes ou circuitos 
de conexão interrompidos. Não há sentido nenhum na execução da segmentação além do nível de detalha- 
mento necessário para identificar esses elementos. 


A segmentação de imagens não triviais é uma das tarefas mais difíceis no processamento de imagens. A preci- 
são da segmentação determina o sucesso ou o fracasso final dos procedimentos de análise computadorizada. 
Por essa razão, deve-se tomar muito cuidado para aumentar a probabilidade de se obter uma segmentação 
precisa. Em algumas situações, como nas aplicações de controle industrial, é possível pelo menos alguma me- 
dida de controle sobre o ambiente. Um experiente desenvolvedor de sistemas de processamento de imagens 
deve prestar muita atenção nessas oportunidades. Em outras aplicações, como a busca autônoma de alvos, o 
desenvolvedor do sistema não tem controle sobre o ambiente no qual o sistema opera, e a abordagem usual 
consiste em centrar-se na seleção dos tipos de sensores que provavelmente vão realçar os objetos de interesse, 
diminuindo a contribuição dos detalhes irrelevantes da imagem. Um bom exemplo é o uso da imagem infra- 
vermelha pelos militares para detectar objetos com forte emissão de calor, como equipamentos e tropas em 
movimento. 


A maioria dos algoritmos de segmentação neste capítulo baseia-se em uma das seguintes propriedades básicas 
de valores de intensidade: descontinuidade e similaridade.” Na primeira categoria, a abordagem é dividir uma 
imagem com base nas mudanças bruscas de intensidade, como as bordas. As abordagens principais na segunda 
categoria estão baseadas na divisão de uma imagem em regiões que sejam semelhantes de acordo com um con- 
junto de critérios predefinidos. A limiarização, o crescimento de região e a divisão e fusão de regiões são exemplos 
dos métodos desta categoria. Neste capítulo, discutiremos e ilustraremos uma série de abordagens e mostraremos 
que as melhorias no desempenho da segmentação podem ser alcançadas com a combinação de métodos de cate- 
gorias diferentes, como as técnicas cuja a detecção de bordas é combinada com a limiarização. Discutiremos tam- 
bém a segmentação de imagens baseada em morfologia. Essa abordagem é particularmente interessante porque 
combina vários dos atributos positivos da segmentação com base nas técnicas apresentadas na primeira parte do 
capítulo. Concluiremos o capítulo com uma breve discussão sobre a segmentação utilizando dicas de movimento. 


Veja as seções 6.7 e 10.3.8 para uma discussão quanto às técnicas de segmentação baseadas em mais elementos além dos valores de cinza 
(intensidade). 


10.1 Fundamentos 


Digamos que R represente toda a região espacial 
ocupada por uma imagem. Podemos ver a segmentação 
da imagem como um processo que particiona R em n sub- 
regiões, R, R,..., R,, de tal forma que 


(a) UR, =R 

(b)R é um conjunto conectado, i = 1, 2,..., n. 

(c) RR, = © para todo ie j i#j 

(d)Q(R) = VERDADEIRA para i = 1, 2,...,n. 

(e) Q(RUR) = FALSA para quaisquer regiões adjacen- 

tes R,e R, 

Aqui, Q(R,) é uma propriedade lógica definida sobre 
os pontos no conjunto R,, e Ø é o conjunto nulo. Os sim- 
bolos U e N representam a união e a interseção do con- 
junto, respectivamente, conforme definido na Seção 2.6.4. 


Duas regiões R, e R, são ditas adjacentes se a sua união forma 
um conjunto conexo, como discutido na Seção 2.5.2. 


A condição (a) indica que a segmentação deve ser 
completa, isto é, cada pixel deve estar em uma região. A 
condição (b) requer que os pontos em uma região este- 
jam conectados de alguma forma predefinida (por exem- 
plo, os pontos devem ser 4- ou 8-conectados, conforme 
definido na Seção 2.5.2). A condição (c) indica que as 


>| 
> 


Figura 10.1 
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regiões devem estar separadas. A condição (d) tem a ver 
com as propriedades que devem ser cumpridas pelos pi- 
xels em uma região segmentada — por exemplo, Q(R,) = 
VERDADEIRA se todos os pixels em R, possuírem o mes- 
mo nível de intensidade. Finalmente, a condição (e) in- 
dica que duas regiões adjacentes, R, e R, devem ser dife- 
rentes no sentido da propriedade Q.” 


Assim, vemos que o problema fundamental da seg- 
mentação é a divisão de uma imagem em regiões que 
satisfaçam as condições anteriores. Os algoritmos de seg- 
mentação para imagens monocromaticas geralmente 
estão baseados em uma de duas categorias básicas re- 
lacionadas às propriedades dos valores de intensidade: 
descontinuidade e similaridade. Na primeira categoria, 
o pressuposto é que as fronteiras das regiões são sufi- 
cientemente diferentes entre si e em relação ao fundo da 
imagem para permitir a detecção de limite com base nas 
descontinuidades locais em intensidade. A segmentação 
baseada nas bordas é a principal abordagem usada nesta 
categoria. As abordagens da segmentação baseada na região 
na segunda categoria estão baseadas na divisão de uma 
imagem em regiões que sejam semelhantes de acordo 
com um conjunto de critérios predefinidos. 


A Figura 10.1 ilustra os conceitos anteriores. A Figura 
10.1(a) mostra uma imagem de uma região de intensidade 


> 
> 


(a) Imagem que contém uma região de intensidade constante. (b) Inagem mostrando a fronteira da região interior, obtida a partir 


das descontinuidades de intensidade. (c) Resultado da segmentação da imagem em duas regiões. (d) Inagem que contém uma região com textu- 
ra. (e) Resultado do cálculo da borda. Repare no grande número de pequenas bordas que estão conectadas com a fronteira original, o que torna 
difícil encontrar um limite único utilizando apenas a informação das bordas. (f) Resultado da segmentação baseada nas propriedades da região. 


* Em geral, Q pode ser uma expressão composta, como, por exemplo, Q(R,) = VERDADEIRA se a intensidade média dos pixels em R, for 
menor a m, E (AND) se o desvio padrão de sua intensidade for maior do que o, em que m, e o, são constantes especificadas. 
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constante sobreposta em um fundo mais escuro, também 
de intensidade constante. Essas duas regiões compreendem 
a região global da imagem. A Figura 10.1(b) mostra o re- 
sultado do cálculo da fronteira da região interna baseado 
nas descontinuidades de intensidade. Os pontos no interior 
e no exterior da fronteira são pretos (zero) porque não há 
nenhuma descontinuidade na intensidade nessas regiões. 
Para segmentar a imagem, podemos atribuir um nível (di- 
gamos, branco) para os pixels sobre ou no interior da fron- 
teira e outro nível (digamos, preto) para todos os pontos do 
lado de fora da fronteira. A Figura 10.1(c) mostra o resulta- 
do desse procedimento. Vemos que as condições (a) até (c) 
estabelecidas no início desta seção são cumpridas com este 
resultado. A propriedade da condição (d) é: se um pixel 
está sobre ou dentro da fronteira, a etiqueta é branca; caso 
contrário, a etiqueta é preta. Vemos que essa propriedade é 
VERDADEIRA para os pontos rotulados em preto e branco 
na Figura 10.1(c). Da mesma forma, as duas regiões seg- 
mentadas (objeto e fundo) satisfazem a condição (e). 


As três imagens a seguir ilustram a segmentação ba- 
seada na região. A Figura 10.1(d) é semelhante à Figura 
10.1(a), mas as intensidades da região interna formam 
um padrão texturizado. A Figura 10.1 (e) mostra o resul- 
tado do cálculo das bordas desta imagem. É evidente que 
as numerosas mudanças artificiais na intensidade fazem 
com que seja difícil identificar uma fronteira única na 
imagem original, porque muitas das mudanças de inten- 
sidade diferentes de zero estão conectadas à fronteira, de 
modo que a segmentação baseada na borda não é um 
método adequado. Observamos, no entanto, que a região 
externa é constante, então tudo o que precisamos para 
resolver esse problema de segmentação simples é uma 
propriedade que faça a diferença entre as regiões cons- 
tantes e as texturizadas. O desvio padrão dos valores dos 
pixels é uma medida que faz isso porque é diferente de 
zero nas áreas da região de textura e é zero no caso con- 
trário. A Figura 10.1(f) mostra o resultado de dividir a 
imagem original em sub-regiões de tamanho 4 x 4. Cada 
sub-região foi, então, rotulada como branca se o desvio 
padrão de seus pixels era positivo (ou seja, se a proprie- 
dade era VERDADEIRA) e zero caso contrário. O resul- 
tado foi uma aparência de “blocos” ao redor da borda da 
região em decorrência de os grupos de 4 x 4 terem sido 
rotulados com a mesma intensidade. Finalmente, repare 
que esses resultados também cumprem com as cinco con- 
dições estabelecidas no início desta seção. 


10.2 Detecção de ponto, linha e borda 


O tema principal desta seção são os métodos de seg- 
mentação baseados na detecção de mudanças locais abrup- 


tas de intensidade. Os três tipos de características da ima- 
gem em que estamos interessados são os pontos isolados, 
as linhas e as bordas. Os pixels de borda são pixels em que 
a intensidade de uma função imagem muda abruptamen- 
te, e as bordas (ou segmentos de borda) são conjuntos de 
pixels de borda conexos (ver Seção 2.5.2 em relação à co- 
nectividade). Os detectores de borda são métodos de proces- 
samento de imagem local desenvolvidos para detectar os 
pixels da borda. Uma linha pode ser vista como um seg- 
mento de borda em que a intensidade do fundo de cada 
lado da linha ou é muito superior ou muito inferior à in- 
tensidade dos pixels da linha. De fato, como discutiremos 
na seção a seguir e na Seção 10.2.4, as linhas dão origem às 
chamadas “bordas em forma de telhado” ou roof edges. Da 
mesma forma, um ponto isolado pode ser visto como uma 
linha cujo comprimento e largura são iguais a um pixel.” 


10.2.1 Fundamentos 


Como vimos nas seções 2.6.3 e 3.5, o filtro de média 
local suaviza a imagem. Dado que a suavização pela média 
se assemelha à integração, não surpreende que as mudan- 
ças locais abruptas na intensidade possam ser detectadas 
usando derivadas. Por razões que se tornarão evidentes 
em breve, as derivadas de primeira e segunda ordem são 
particularmente adequadas para essa finalidade. 


As derivadas de uma função digital são definidas em 
termos de diferenças. Existem várias maneiras de abor- 
dar essas diferenças, mas, como explicado na Seção 3.6.1, 
é preciso que qualquer aproximação utilizada para uma 
primeira derivada (1) seja zero nas áreas de intensidade 
constante; (2) seja diferente de zero no início de um de- 
grau ou rampa de intensidade; e (3) que seja diferente de 
zero em pontos ao longo de uma rampa de intensidade. 
Da mesma forma, é preciso que qualquer aproximação 
utilizada para uma derivada de segunda ordem (1) seja 
zero nas áreas de intensidade constante; (2) seja dife- 
rente de zero no início e no final de uma rampa ou de- 
grau de intensidade; e (3) seja diferente de zero ao longo 
das rampas de intensidade. Já que estamos lidando com 
quantidades digitais cujos valores são finitos, a variação 
máxima possível de intensidade também é finita, e a me- 
nor distância na qual uma mudança pode ocorrer é entre 
pixels adjacentes. 


Obtemos uma aproximação para a derivada de pri- 
meira ordem no ponto x de uma função bidimensional f(x), 


* Quando falamos em linhas, estamos nos referindo a estruturas finas 
que geralmente têm apenas alguns pixels de espessura. Essas linhas 
podem corresponder, por exemplo, aos elementos de um desenho 
arquitetônico digitalizado ou estradas em uma imagem de satélite. 


expandindo a função f(x + Ax) em uma série de Taylor so- 
bre x, assumindo que Ax = 1 e mantendo apenas os termos 
lineares (Exercício 10.1). O resultado é a diferença digital” 


Do f= f+- fx) (1021) 
Ox 

Utilizaremos aqui uma derivada parcial para ter 
mais consistência na notação quando consideramos uma 
imagem como uma função de duas variáveis, f (x, y), 
quando trabalharemos com derivadas parciais ao longo 
dos dois eixos. Claramente, Of/ Ox = df/dx, quando fé uma 
função de uma única variável. 


Obtemos uma expressão para a segunda derivada 
diferenciando a Equação 10.2-1 com relação a x: 


FF OA eee e 

a Oe = f'(x+1)- f'(x) 
= f(x += f(x+1)— f(x + D+ f(x) 
= f(x + 2)=2f(x+1)+ f(x) 
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na qual a segunda linha resulta da Equação 10.2-1. Essa ex- 
pansão é sobre o ponto x+ 1. Nosso interesse está na segun- 
da derivada sobre o ponto x, de modo que subtraímos 1 dos 
argumentos na expressão anterior e obtemos o resultado 

of 

ax? 

É fácil verificar que as equações 10.2-1 e 10.2-2 
satisfazem as condições definidas no início desta seção 
sobre as derivadas de primeira e segunda ordem. Para 
ilustrar este ponto e destacar as semelhanças e diferenças 
fundamentais entre as derivadas de primeira e segunda 
ordem no contexto do processamento de imagem, consi- 
dere a Figura 10.2. 


Ff (x)= f(x+1)+ f(x—l)—2f(x) (10.2-2) 


A Figura 10.2(a) mostra uma imagem que contém 
varios objetos sólidos, uma linha e um ponto interno 
de ruído. A Figura 10.2(b) mostra um perfil de intensidade 
horizontal (linha de digitalização) da imagem, próximo 


7 + Ponto isolado E NA 
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E 4 po „~ Rampa i i Linha q Degrau I 
s l 
E 3 Ba i Segmento plang | 
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N % 
0 e-e-d voe o woe 4 
Faixa da imagem [5 [5 ]4[3]2]1]0]0]0[6]0]0]0]o0[1[3]1]0]0]0]o]7]7|7]|7 
Pe ToD alee oa Dee lM at Le E 
Derivada de primeira ordem —1 —1 —1—1—1 0 0 6-600 0 1 2—2-10 007000 
CELETISTA)! 
Derivada de segunda ordem 10 000106-1260011-411007-700 


Figura 10.2 (a) Imagem (b) Perfil de intensidade horizontal no centro da imagem, incluindo o ponto de ruído isolado, (c) Perfil simplificado (os 
pontos estão unidos com traços para facilitar o entendimento). A faixa da imagem corresponde ao perfil de intensidade, e os números nas caixas 
são os valores de intensidade dos pontos mostrados no perfil. As derivadas foram obtidas utilizando as equações 10.2-1 e 10.2-2. 


* Lembre-se, da Seção 2.4.2, que os incrementos entre as amostras de imagens são definidos como uma unidade para maior clareza na 
notação, daí o uso de 4x = 1 na derivação da Equação 10.2-1. 
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ao centro, incluindo o ponto isolado. As transições de in- 
tensidade entre os objetos sólidos e o fundo ao longo da 
linha de digitalização mostram dois tipos de bordas: bor- 
das em rampa (à esquerda) e bordas em degrau (à direita). 
Como discutiremos mais tarde, as transições de intensi- 
dade envolvendo objetos finos como linhas muitas ve- 
zes são chamados de bordas em forma de telhado. A Figura 
10.2(c) mostra uma simplificação do perfil, com pontos 
suficientes para que possamos analisar numericamente a 
forma em que as derivadas de primeira e segunda ordem 
se comportam quando encontram um ponto de ruído, uma 
linha e as bordas dos objetos. Nesse diagrama simplifica- 
do, a transição na rampa abrange quatro pixels, o ponto 
de ruído é um pixel único, a linha é de três pixels de 
espessura e a transição em degrau de intensidade ocorre 
entre pixels adjacentes. O número de níveis de intensida- 
de limita-se a oito, por motivos de simplicidade. 


Considere as propriedades das derivadas de primei- 
ra e segunda ordem conforme percorremos o perfil da 
esquerda para a direita. Inicialmente, observamos que a 
derivada de primeira ordem é diferente de zero no início 
e ao longo de toda a rampa de intensidade, enquanto a 
derivada de segunda ordem é diferente de zero apenas no 
início e no final da rampa. Já que as bordas das imagens 
digitais se parecem com este tipo de transição, podemos 
concluir que as derivadas de primeira ordem produzem 
bordas “grossas”, e as de segunda ordem produzem bor- 
das muito mais finas. Em seguida, encontramos o ponto 
de ruído isolado. Aqui, a magnitude da resposta no ponto 
é muito mais forte para a derivada de segunda ordem do 
que para a de primeira ordem. Isso não é uma surpresa, 
porque uma derivada de segunda ordem é muito mais 
agressiva do que uma derivada de segunda ordem na 
hora de facilitar as mudanças bruscas. 


Assim, podemos esperar que as derivadas de segun- 
da ordem melhorem os pequenos detalhes (incluindo o 
ruído) com mais eficiência do que as derivadas de primei- 
ra ordem. A linha neste exemplo é bastante fina; por isso, 
seus detalhes também são finos e vemos mais uma vez 
que a derivada de segunda ordem tem uma magnitude 
maior. Finalmente, observe, tanto nas bordas em rampa 
quanto nas bordas em degrau, que a segunda derivada 
tem sinais opostos (negativo para positivo ou positivo 
para negativo) conforme entra e sai da borda. Esse efeito 
de “borda dupla” é uma característica importante que, 
como mostramos na Seção 10.2.6, pode ser usado para 
localizar as bordas. O sinal da segunda derivada também 
é utilizado para determinar se uma borda é uma transi- 
ção de claro a escuro (segunda derivada negativa) ou de 


escuro para claro (segunda derivada positiva), em que o 
sinal é observado conforme nos aproximamos da borda. 


Em resumo, chegamos às seguintes conclusões: (1) 
as derivadas de primeira ordem geralmente produzem 
bordas mais grossas em uma imagem. (2) As derivadas 
de segunda ordem têm uma resposta mais forte aos de- 
talhes finos, como linhas finas, pontos isolados e ruído. 
(3) As derivadas de segunda ordem produzem uma res- 
posta de borda dupla nas transições de rampa e de degrau 
de intensidade. (4) O sinal da segunda derivada pode ser 
usado para determinar se uma transição em uma borda é 
de claro para escuro ou vice-versa. 


A melhor estratégia para o cálculo das derivadas de 
primeira e segunda ordem em cada posição de pixel em 
uma imagem é a utilização de filtros espaciais. Para o fil- 
tro com máscara 3 x 3 da Figura 10.3, o procedimento 
consiste em calcular a soma dos produtos dos coeficientes 
da máscara com os valores de intensidade na região com- 
preendida pela máscara. Isto é, com referência à Equação 
3.4.3, a resposta da máscara no ponto central da região é 


R=wZ, +W,Z, ++ usçã 
9 
= ut 
k=1 


na qual z, é a intensidade do pixel cuja localização espacial 
corresponde à posição do k-ésimo coeficiente da máscara. 
Os detalhes da execução desta operação em todos os pixels 
de uma imagem são discutidos em detalhe nas seções 3.4 
e 3.6. Em outras palavras, o cálculo das derivadas baseado 
nas máscaras espaciais é a filtragem espacial de uma ima- 
gem com essas máscaras, como explicado nessas seções.” 


(10.2-3) 
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Figura 10.3 Uma máscara geral de filtro espacial 3 x 3. 


Conforme explicado na Seção 3.4.3, a Equação 10.2-3 é uma 
notação simplificada, seja para a correlação espacial, dada pela 
Equação 3.4-1, seja pela convolução espacial, dada pela Equação 
3.4-2. Portanto, quando R é avaliado em todos os locais de uma 
imagem, o resultado é um arranjo. Toda a filtragem espacial neste 
capítulo é feita usando correlação. Em alguns casos, usamos o 
termo convolução de uma máscara com uma imagem para fins 
de manter a convenção. No entanto, só usamos essa terminologia 
quando as máscaras de filtro são simétricas, caso em que a corre- 
lação e a convolução produzem o mesmo resultado. 


10.22 Detecção de pontos isolados 


Com base nas conclusões da seção anterior, sabemos 
que a detecção de pontos deve-se basear nas técnicas que 
utilizam as derivadas de segunda ordem. A partir da dis- 
cussão na Seção 3.6.2, isso implica utilizar o laplaciano: 

2 2 
vº f(x, p= 2b 4 OL 
Ox” Oy 
sendo que as derivadas parciais são obtidas usando a 
Equação 10.2-2: 


(10.2-4) 


FIOM etit 
Ox 
f(x-Ly)—2f (x,y) (10.2-5) 
e 
KP pea apa 
oy 
f(x, y—-1)—2f (x,y) (10.2-6) 


O laplaciano é, então, 


V fly) = flx+ + f(x-Ly) + f(x,y +1) 
+f(x,y—1)—4f (x,y) (10.2-7) 


Conforme explicado na Seção 3.6.2, essa expressão pode 
ser implementada usando a máscara da Figura 3.379(a). 
Além disso, como explicado nessa seção, podemos esten- 
der a Equação 10.2-7 para incluir os termos diagonais e 
usar a máscara da Figura 3.37(b). Usando a máscara la- 
placiana na Figura 10.4(a), que é idêntica à máscara da 
Figura 3.37(b), dizemos que um ponto foi detectado no 
local (x, y) em que a máscara está centrada se o módulo 
do valor de resposta da máscara nesse ponto exceder um 
limiar estabelecido. Esses pontos são rotulados como 1 
na imagem de saída, e todos os outros são rotulados 0, 
produzindo, assim, uma imagem binária. Em outras pa- 
lavras, a saída é obtida utilizando a seguinte expressão: 


1 se|R(x, y| >T 
0 caso contrario 


g(x,y) = | 
(10.2-8) 
na qual g é a imagem de saída, T é um limiar não negativo, 
e R é dado pela Equação 10.2-3. Essa formulação simples- 
mente mede as diferenças ponderadas entre um pixel e 
seus vizinhos-8. Intuitivamente, a ideia é que a intensida- 
de de um ponto isolado será muito diferente do seu en- 
torno e, portanto, será facilmente detectável por esse tipo 
de máscara. As únicas diferenças de intensidade que são 
de interesse são aquelas suficientemente grandes (como 
determinado por T) para serem consideradas pontos isola- 
dos. Repare que, como é usual para uma máscara deriva- 
da, a soma de coeficientes é zero, indicando que a resposta 
da máscara será zero nas áreas de intensidade constante. 
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Exemplo 10.1 Detecção de pontos isolados em uma 


imagem. 

Ilustramos a segmentação de pontos isolados em uma 
imagem com o auxílio da Figura 10.4(b), que é uma radiografia 
de uma lâmina de turbina de um motor de um jato. A lâmina 
tem uma porosidade no quadrante superior direito da imagem 
e não há um único pixel preto embutido dentro da porosidade. 
A Figura 10.4(c) é o resultado da aplicação da máscara detec- 
tora de pontos para a radiografia e a Figura 10.4(d) mostra o 
resultado do uso da Equação 10.2-8 com T igual a 90% do 
maior valor absoluto dos pixels existentes na Figura 10.4(c). 
O pixel é claramente visível nesta imagem (o pixel foi am- 
pliado manualmente para melhorar sua visibilidade). Esse 
tipo de processo de detecção é bastante especializado porque 
é baseado nas mudanças abruptas da intensidade em locais 
de um único pixel que estão cercadas por um fundo homo- 
gêneo na área da máscara detectora. Quando essa condição 
não é satisfeita, outros métodos discutidos neste capítulo são 
mais adequados para detectar mudanças de intensidade. 

a 


10.23 Detecção de linhas 


O próximo nível de complexidade é a detecção de 
linha. Com base na discussão da Seção 10.2.1, sabemos 
que, para a detecção de linha, podemos esperar que as de- 
rivadas de segunda ordem resultem em uma resposta mais 
forte e produzam linhas mais finas do que as derivadas de 


l l 1 
l —8 1 
l 1 1 


Figura 10.4 (a) Máscara de detecção de pontos (laplaciana). (b) 
Radiografia da uma lâmina de turbina com porosidade. A porosidade 
contém um único pixel preto. (c) Resultado da convolução da máscara 
com a imagem. (d) Resultado da utilização da Equação 10.2-8 mos- 
trando um único ponto (o ponto foi ampliado para tornar mais fácil 
sua visualização). (Imagem original: cortesia da X-TEK Systems, Ltd.) 
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primeira ordem. Assim, podemos usar a máscara laplacia- 
na na Figura 10.4(a) para a detecção de linhas também, 
levando em consideração que o efeito de linha dupla da 
segunda derivada deve ser tratado adequadamente. O 
exemplo a seguir ilustra o procedimento. 


= 
Exemplo 10.2 Utilizando o filtro laplaciano para a 
detecção de linhas. 


A Figura 10.5(a) mostra uma porção 486 x 486 (biná- 
ria) de uma conexão wire-bond de um circuito eletrônico, e a 
Figura 10.5(b) mostra a mesma imagem após ter sido subme- 
tida ao filtro laplaciano. Já que a imagem laplaciana contém 
valores negativos,” o ajuste é necessário para poder mostrar 
o processo. Como mostra a seção ampliada, o cinza médio 
representa zero, os tons mais escuros de cinza representam 
valores negativos e tons mais claros são positivos. O efeito de 
linha dupla é claramente visível na região ampliada. 

À primeira vista, pode parecer que os valores negati- 
vos podem ser tratados simplesmente tomando como res- 
posta o módulo dos valores calculados pelo filtro laplaciano. 


Pa 


ns O ea 
7 Ñ = 
Figura 10.5 
placiano; a seção ampliada mostra o efeito de linha dupla positivo/ 


negativo característico do filtro laplaciano. (c) Valor absoluto do filtro 
laplaciano. (d) Valores positivos do filtro laplaciano. 


(a) Imagem original. (b) Imagem resultante do filtro la- 


* Quando uma máscara cuja soma dos coeficientes é zero faz con- 
volução com uma imagem, os pixels da imagem resultante tam- 
bém somarão zero (Exercício 3.16), sugerindo a existência de 
pixels tanto positivos quanto negativos no resultado. Um ajuste 
de intensidadesde de modo que todos os valores sejam não nega- 
tivos é necessário para fins de exibição. 


No entanto, como apresentado na Figura 10.5(c), essa abor- 
dagem dobra a espessura das linhas. Uma metodologia mais 
adequada consiste em utilizar apenas os valores positivos do 
filtro laplaciano (em situações ruidosas utilizamos os valores 
que excedem o limiar positivo para eliminar as variações 
aleatórias ao redor de zero causadas pelo ruído). Como a 
imagem na Figura 10.5(d) mostra, essa abordagem resulta 
em linhas mais finas, que são consideravelmente mais úteis. 
Note nas figuras 10.5(b) a (d), que, quando as linhas são 
largas comparadas com o tamanho da máscara laplaciana, as 
linhas são separadas por um “vale” de zeros. 
Isto não é uma surpresa. Por exemplo, quando o filtro 
3 x 3 é centrado em uma linha de intensidade constante 
de 5 pixels de largura, a resposta será zero, produzindo o 
efeito de “vale” mencionado acima. Quando falamos sobre 
detecção de linhas, o pressuposto é que as linhas são finas 
se comparadas com o tamanho do detector. É melhor tratar 
as linhas que não cumprem essa hipótese como regiões e 
manipulá-las usando os métodos de detecção de bordas que 
discutiremos ainda nesta seção. 
= 


O detector laplaciano apresentado na Figura 10.4(a) 
é isotrópico e, por isso, sua resposta independe da direção 
(em relação às quatro direções da máscara laplaciana 3 x 
3: verticais, horizontais e duas diagonais). Muitas vezes, o 
interesse reside na detecção de linhas em direções especí- 
ficas. Considere as máscaras na Figura 10.6. Suponha que 
uma imagem com um fundo constante e que contém vá- 
rias linhas (orientadas a 0º, + 45º e 90º) é filtrada com a 
primeira máscara.” As respostas máximas ocorrerão em 
locais da imagem em que uma linha horizontal atraves- 
sou a linha do meio da máscara. Isso é facilmente com- 
provado esboçando um arranjo simples de 1s com uma 
linha de diferentes intensidades (digamos, 5s) na direção 
horizontal do arranjo. Uma experiência semelhante re- 
velaria que a segunda máscara na Figura 10.6 responde 
melhor às linhas com 45º de inclinação; a terceira más- 
cara para linhas verticais e a quarta máscara, para linhas 
com -45° de inclinação. A direção preferencial de cada 
máscara é ponderada com um coeficiente maior (ou seja, 
2) do que os outros sentidos possíveis. Os coeficientes de 
cada máscara somam zero, indicando uma resposta nula 
em áreas de intensidade constante. 

Digamos que R, R, R, e R, denotam as respostas 
das máscaras apresentadas na Figura 10.6, da esquerda 


“ Lembre-se que, na Seção 2.4.2, diziamos que convencionalmente 
os eixos da imagem têm sua origem no canto superior esquerdo, 
e o eixo x positivo aponta para baixo, enquanto o eixo y positivo 
se estende à direita. Os ângulos das linhas discutidas nesta seção 
são medidos em relação ao eixo x positivo. Por exemplo, uma li- 
nha vertical tem um ângulo de 0º e uma linha de +45º se estende 
para baixo e para a direita. 
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2 2 2 -1 2 -l1 -l 2 -l1 -l 2 -1 

l l l -1 -1 2 -l 2 -l1 2 -l -1 
Horizontal +45º Vertical —45° 


Figura 10.6 Mascaras de detecção de linhas. Os ângulos são em relação ao sistema de eixos da Figura 2.18(b). 


para a direita, em que os Rs são dados pela Equação 10.2-3”. 
Suponha que uma imagem seja filtrada (individualmen- 
te) com as quatro máscaras. Se, em um certo, IR, |> IR, |, 
para todos j = k, esse ponto tem maior probabilidade de 
ser associado a uma linha na direção da máscara k. Por 
exemplo, se em um ponto na imagem, IR l> IR, |, paraj = 
2, 3, 4, esse ponto em particular tem mais probabilidades 
de ser associado a uma linha horizontal. Alternativamen- 
te, podemos estar interessados na detecção de linhas em 
uma direção especificada. Nesse caso, poderíamos usar a 
máscara associada a essa direção e estabelecer um limiar 
na sua saída, como na Equação 10.2-8. Em outras pala- 
vras, se estamos interessados em detectar todas as linhas 
em uma imagem no sentido definido por uma máscara 
específica, simplesmente executamos a máscara por meio 
da imagem e estabelecemos um limiar comparando-o ao 
módulo do valor do resultado. Os pontos que sobrarem 
serão as respostas mais fortes que, para as linhas de 1 pi- 
xel de espessura, têm maior probabilidade de correspon- 
der à direção definida pela máscara. O exemplo a seguir 
ilustra o procedimento. 


= 
Exemplo 10.3 Detecção de linhas em direções 
específicas. 


A Figura 10.7(a) mostra a imagem usada no exemplo 
anterior. Suponha que estamos interessados em encontrar 
todas as linhas que são de 1 pixel de espessura e com in- 
clinação de 45º. Para esse fim, usamos a segunda máscara 
apresentada na Figura 10.6. A Figura 10.7(b) é o resulta- 
do da filtragem da imagem com aquela máscara. Como an- 
tes, os tons mais escuros do que o fundo cinza na Figura 
10.7(b) correspondem aos valores negativos. Existem dois 
segmentos principais na imagem com inclinação de +45º, 
uma na parte superior esquerda e a outra na parte inferior 


* Não confunda o uso de R para designar a resposta da máscara 
com o R utilizado para para designar regiões na Seção 10.1. 


Sé 
o 


Figura 10.7 (a) Imagem de uma conexão wire-bond. (b) Resultado 
do processamento utilizando a máscara detectora de linha de +45° 
na Figura 10.6. (c) Vista ampliada da região posicionada no canto su- 
perior esquerdo de (b). (d) Vista ampliada da região posicionada no 
canto inferior direito de (b). (e) A imagem em (b) com todos os valores 
negativos zerados. (f) Todos os pontos (em branco), cujos valores cum- 
priram a condição g > 7, na qual g é a imagem em (e). (Os pontos em 
(f) foram ampliados para que fosse mais fácil de ver.) 
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direita. As figuras 10.7(c) e (d) mostram seções ampliadas da 
Figura 10.7(b) correspondentes a essas duas áreas. Repare 
quão mais claro é o segmento de reta apresentado na Figura 
10.7(d), comparado com o segmento apresentado na Figura 
10.7(c). A razão é que o segmento de linha no canto inferior 
direito da Figura 10.7(a) é de 1 pixel de espessura, diferen- 
temente daquele na parte superior esquerda. A máscara está 
“sintonizada” para detectar linhas de 1 pixel de espessura 
com inclinação de +45º, por isso esperamos que sua res- 
posta seja mais forte quando essas linhas são detectadas. A 
Figura 10.7(e) mostra os valores positivos da Figura 10.7(b). 
Já que estamos interessados na resposta mais forte, vamos 
deixar T igual ao maior valor de pixel encontrado na ima- 
gem representada na Figura 10.7(e). A Figura 10.7(f) mos- 
tra em branco os pontos cujos valores satisfizeram a condi- 
ção g > T, em que g é a imagem da Figura 10.7(e). Os pontos 
isolados na figura são pontos que também tiveram respostas 
igualmente fortes para a máscara. Na imagem original, esses 
pontos e seus vizinhos imediatos estão orientados de tal ma- 
neira que a máscara produziu uma resposta máxima nesses 
locais. Esses pontos isolados podem ser detectados usando 
a máscara da Figura 10.4(a) e, em seguida, eliminados, ou 
podem ser excluídos usando operadores morfológicos, como 
discutido no Capítulo 9. 

= 


10.2.4 Modelos de borda 


A detecção de bordas é o método usado mais frequen- 
temente para segmentar as imagens com base nas variações 
abruptas (locais) de intensidade. Começamos por introdu- 
zir diversas formas para modelar as bordas e discutiremos 
uma série de metodologias para a detecção de bordas. 


Os modelos de borda são classificados de acordo com 
seus perfis de intensidade. Uma horda em degrau envolve 
uma transição entre dois níveis de intensidade que ocor- 
rem idealmente com uma distância de 1 pixel. A Figura 
10.8(a) mostra a seção de uma borda vertical em degrau 
e o perfil de intensidade horizontal da borda. As bordas 
em degrau ocorrem, por exemplo, em imagens geradas 
por computador para uso em áreas como a modelagem de 
sólidos e animações. Essas bordas, limpas e ideais, podem 
ocorrer com uma distância de 1 pixel, desde que nenhum 
processamento adicional (como a suavização) seja usado 


EH 
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para fazé-las parecer “reais”. As bordas digitais em degrau 
sao utilizadas com frequéncia como modelos de borda no 
desenvolvimento de algoritmos. Por exemplo, o algoritmo 
de detecção de bordas de Canny, discutido na Seção 10.2.6, 
foi calculado a partir de um modelo de borda em degrau. 


Na prática, as imagens digitais têm bordas que são 
desfocadas e ruidosas, cujo grau de indefinição está deter- 
minado principalmente pelas limitações no mecanismo de 
focalização (ou seja, as lentes, no caso das imagens óti- 
cas) e o nível de ruído determinado principalmente pelos 
componentes eletrônicos do sistema de imagens. Em tais 
situações, as bordas são modeladas mais apropriadamen- 
te designando um perfil de rampa na intensidade, como a 
borda da Figura 10.8(b). A inclinação da rampa é inversa- 
mente proporcional ao grau de indefinição da borda. Nesse 
modelo, não temos mais uma borda fina (1 pixel de espes- 
sura). Em vez disso, um ponto de borda agora é qualquer 
ponto contido na rampa, e um segmento de borda seria, 
então, um conjunto desses pontos conectados. 


Um terceiro modelo de borda é a chamada borda em 
forma de telhado ou roof edge, cujas características são ilus- 
tradas na Figura 10.8(c). As bordas em forma de telhado 
são modelos de linhas através de uma região, com a base 
(largura) de uma borda em forma de telhado determinada 
pela espessura e a nitidez da linha. No limite, quando sua 
base é de 1 pixel de largura, uma borda em forma de te- 
lhado realmente não é nada mais do que uma linha com 
1 pixel de espessura que atravessa uma região da imagem. 
As bordas em forma de telhado surgem, por exemplo, nas 
imagens em profundidade, quando os objetos finos (como 
tubos) estão mais próximos do sensor do que seu fundo 
equidistante (como paredes). Os tubos parecem mais cla- 
ros e, assim, criam uma imagem semelhante ao modelo da 
Figura 10.8(c). Como já mencionado, outras áreas em que 
as bordas em forma de telhado aparecem rotineiramente 
são na digitalização de desenhos e em imagens de satéli- 
te, em que características finas, como estradas, podem ser 
modeladas por esse tipo de borda. 


Não é incomum encontrar imagens que contenham 
os três tipos de bordas. Embora o borramento e o ruído re- 
sultem em alterações das formas ideais, as bordas nas ima- 


E 


Figura 10.8 Da esquerda para a direita, os modelos (representações ideais) de uma borda em degrau, em rampa e em forma de telhado e seus 


respectivos perfis de intensidade. 


gens, que são razoavelmente abruptas e apresentam uma 
quantidade moderada de ruído, lembram as características 
dos modelos de borda na Figura 10.8, conforme ilustrado 
pelos perfis apresentados na Figura 10.9." O que os mode- 
los da Figura 10.8 permitem-nos fazer é escrever expressões 
matemáticas para as bordas no desenvolvimento de algorit- 
mos de processamento de imagens. O desempenho destes 
algoritmos depende das diferenças entre as bordas reais e 
os modelos utilizados no desenvolvimento dos algoritmos. 


A Figura 10.10(a) mostra a imagem da qual foi ex- 
traído o segmento na Figura 10.8(b). A Figura 10.10(b) 
mostra um perfil de intensidade horizontal. Esta figura 
mostra também a primeira e segunda derivadas do perfil 
de intensidade. Como discutido na Seção 10.2.1, percor- 
rendo o perfil de intensidade da esquerda para a direita, 
notamos no início da rampa e em certos pontos dele que 
a primeira derivada é positiva e, nas áreas de intensidade 
constante, a primeira derivada é igual a zero. A segunda 
derivada é positiva no início da rampa, negativa no final 
dele, zero em certos pontos e novamente zero nos pontos de 
intensidade constante. Os sinais das derivadas discutidas 


Figura 10.9 Uma imagem 1.508 x 1.970 que mostra (de forma am- 
pliada) os perfis dos tipos de borda existentes na imagem: uma rampa 
(em baixo à esquerda), um degrau (no alto à direita), e uma borda em 
forma de telhado. Os perfis vão do escuro ao claro nas áreas indicadas 
pelos pequenos segmentos de linha vistos nos pequenos círculos. Os 
perfis de rampa e de “degrau” cobrem 9 pixels e 2 pixels, respectiva- 
mente. A base da borda em forma de telhado é de 3 pixels. (Imagem 
original: cortesia do dr. David R. Pickens, Universidade de Vanderbilt.) 


* Bordas em rampa com uma inclinação acentuada de alguns pi- 
xels muitas vezes são tratadas como bordas em degrau, a fim de 
diferenciá-las das rampas na mesma imagem cujas inclinações 
são mais gradativas. 
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anteriormente seriam invertidos para uma borda que vai 
do claro ao escuro. A interseção entre o eixo de intensi- 
dade zero e uma linha que se estende entre os extremos 
da segunda derivada cria um ponto chamado cruzamento 
por zero da segunda derivada. 


Concluímos, a partir dessas observações, que a mag- 
nitude da primeira derivada pode ser usada para detectar 
a presença de uma borda em um ponto de uma imagem. 
Da mesma forma, o sinal da segunda derivada pode ser 
usado para determinar se um pixel da borda está do lado 
escuro ou do lado claro de uma borda. Notamos duas 
propriedades adicionais da segunda derivada em torno 
de uma borda: (1) produz dois valores para cada borda 
em uma imagem (uma característica indesejável); e (2) 
seus cruzamentos por zero podem ser usados para locali- 
zar o centro de bordas espessas, como mostraremos mais 
adiante nesta seção. Alguns modelos de borda fazem uso 
de uma transição suave no início e no final da rampa 
(Exercício 10.7). No entanto, as conclusões produzidas 
por esses modelos são as mesmas de um declive ideal e 
trabalhar com este último simplifica as formulações teó- 
ricas. Finalmente, embora a atenção até agora tenha sido 
limitada a um perfil horizontal 1-D, argumento similar 
aplica-se a bordas em quaisquer orientações da imagem. 
Simplesmente definimos um perfil perpendicular na di- 
reção da borda em qualquer ponto desejado e interpreta- 
mos os resultados da mesma maneira que ocorre com as 
bordas verticais já mencionadas. 


| 
Exemplo 10.4 Comportamento da primeira e segunda 
derivadas de uma borda com ruído. 


As bordas da Figura 10.8 não apresentam ruído. Os 
segmentos de imagem na primeira coluna da Figura 10.11 
mostram, de forma ampliada, as quatro bordas em declive 
que fazem a transição de uma região escura à esquerda 
para uma região branca à direita (lembre-se de que toda 
a transição do preto ao branco é uma borda simples). O 
segmento de imagem no canto superior esquerdo não 
apresenta ruído. As outras três imagens na primeira co- 
luna estão corrompidas por um ruído gaussiano aditivo 
com média zero e desvio padrão de 0,1, 1,0 e 10,0 níveis 
de intensidade, respectivamente. O gráfico abaixo de cada 
imagem é um perfil de intensidade horizontal que passa 
pelo centro da imagem. Todas as imagens têm resolução 
de níveis de cinza de 8 bits, com 0 representando o preto e 
255 representando o branco. 


Considere a imagem na parte superior da coluna cen- 
tral. Conforme discutido no âmbito da Figura 10.10(b), a 
derivada da linha de varredura da imagem à esquerda é zero 
nas áreas constantes. Estas são as duas faixas pretas que apa- 
recem na imagem da derivada. As derivadas nos pontos da 
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Figura 10.10 


Perfil de intensidade 
horizontal 


Primeira 
derivada 


Segunda 
derivada 


Cruzamento por zero E: É 


(a) Duas regiões de intensidade constante, separadas por uma borda vertical em declive ideal. (b) Detalhe próximo à borda, mos- 


trando um perfil de intensidade horizontal, juntamente com o sinal de resposta da primeira e da segunda derivadas. 


rampa são constantes e iguais a sua inclinação.” Na imagem 
da derivada, os valores constantes aparecem em cinza. Con- 
forme descemos pela coluna central, as derivadas ficam cada 
vez mais diferentes em razão da presença de ruído no sinal 
original. Na verdade, seria difícil associar o último perfil da 
coluna central com a primeira derivada de uma borda em 
declive. O que torna esses resultados interessantes é que o 
ruído é quase invisível nas imagens na coluna da esquerda. 
Estes exemplos são perfeitos para ilustrar a sensibilidade das 
derivadas em relação ao ruído. 


Como esperado, a segunda derivada é ainda mais sen- 
sível ao ruído. A segunda derivada da imagem sem ruído é 
apresentada na parte superior da coluna à direita. As linhas 
finas verticais brancas e pretas são os elementos positivos e 
negativos da segunda derivada, como explicado na Figura 
10.10. O cinza nessas imagens representa o zero (conforme 
discutido anteriormente, o ajuste na escala de cores faz com 
que o zero pareça cinza). A única imagem ruidosa de segun- 
da derivada que se assemelha vagamente ao caso sem ruído 
é aquela correspondente a um ruído com desvio padrão de 
0,1. As demais imagens de segundas derivadas e seus res- 
pectivos perfis ilustram claramente que seria difícil detectar 
seus componentes positivos e negativos, que são as caracte- 
rísticas verdadeiramente úteis da segunda derivada em ter- 
mos de detecção de bordas. O fato de que um pequeno ruído 
visual possa ter um impacto tão significativo sobre as duas 
principais derivadas utilizadas para a detecção das bordas é 
uma questão importante, que deve ser levada em conside- 
ração. Em particular, a suavização da imagem deve ser se- 


Bordas em rampa com inclinação acentuada de alguns pixels são 
muitas vezes tratadas como bordas em degrau a fim de diferenciá-las 
das rampas nas mesmas imagens cujas inclinação são mais gradativas. 


riamente considerada antes de usar derivadas nas aplicações 
em que ruídos com níveis semelhantes aos que acabamos de 
discutir possam estar presentes. 

= 


Concluímos esta seção observando que existem três 
passos fundamentais a serem considerados na detecção 
das bordas: 


1. Suavização da imagem para redução do ruído. A importân- 
cia desta etapa é amplamente ilustrada com os resulta- 
dos da segunda e terceira colunas da Figura 10.11. 


2. Detecção dos pontos de borda. Como mencionado an- 
teriormente, esta é uma operação local que tira de 
uma imagem todos os pontos que são candidatos 
potenciais a se tornarem pontos de borda. 


3. Localização da borda. O objetivo deste passo é sele- 
cionar, dentre os possíveis pontos de borda, apenas 
aqueles que de fato pertencem ao conjunto de pon- 
tos que formam uma borda. 


O restante desta seção trata de técnicas para atingir 
esses objetivos. 


10.2.5 Detecção básica de bordas 


Como ilustrado na seção anterior, pode-se detectar 
mudanças na intensidade com a finalidade de encontrar 
bordas usando as derivadas de primeira ou de segunda 
ordem. Discutiremos as derivadas de primeira ordem na 
presente seção e trabalharemos com as derivadas de se- 
gunda ordem na Seção 10.2.6. 


= 2 
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Primeira coluna: imagens e perfis de intensidade de uma borda em declive corrompida pelo ruído gaussiano aleatório de média 


Figura 10.11 


zero e desvio padrão 0,0, 0,1, 1,0 e 10,0 níveis de intensidade, respectivamente. Segunda coluna: imagens da primeira derivada e seus respecti- 
vos perfis de intensidade. Terceira coluna: imagens da segunda derivada e seus respectivos perfis de intensidade. 


O gradiente da imagem e suas propriedades 

A ferramenta ideal para encontrar a força (intensidade) 
e a direção da borda na posição (x, y) de uma imagem, f, é o 
gradiente, denotado por V f, e definido como o vetor 


of 
Vf =grad(fy=|"*}=| (10.2-9) 
s| [É 
oy 
* Por praticidade, repetimos aqui algumas equações da Seção 3.6.4. 


Esse vetor tem a importante propriedade geométri- 
ca de apontar no sentido da maior taxa de variação de f 
no local (x, y). 


A magnitude (tamanho) do vetor Vf, denominado 
M(x, y), na qual 


M(x,y)= mag(Vf)= |g? + g, (10.2-10) 


é o valor da taxa de variação na direção do vetor gradien- 
te. Nota-se que g, q ye M(x, y) são imagens do mesmo ta- 
manho que a original, criadas quando x e y podem variar 
ao longo de todas as posições de pixels em f. É comum se 
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referir à última imagem como a imagem gradiente, ou sim- 
plesmente gradiente, quando o significado é claro. A soma, 
o quadrado, a raiz quadrada e o resto das operações são 
operações de arranjo, conforme definidas na Seção 2.6.1. 


A direção do vetor gradiente é dada pelo ângulo 


8, 
8x 
medido em relação ao eixo x. Como no caso da imagem gra- 
diente, a(x, y) também é uma imagem do mesmo tamanho 
que a original criada pela divisão do arranjo de g, pela ima- 
gem g,. A direção de uma borda em um ponto arbitrário (x, 
y) é ortogonal à direção, a(x, y), do vetor gradiente no ponto. 


1 


o(x,y)=tg (10.2-11) 


= 
Exemplo 10.5 Propriedades do gradiente. 


A Figura 10.12(a) mostra uma seção ampliada de uma 
imagem contendo um segmento de borda reto. Cada qua- 
drado corresponde a um pixel e estamos interessados em 
obter a intensidade e a direção da borda no ponto destacado 
com uma caixa. Os pixels em cinza têm valor 0 e os pixels 
brancos têm valor 1. Mostraremos depois deste exemplo 
que uma abordagem para calcular as derivadas nas direções 
x e y utilizando uma vizinhança de 3 x 3 centrada sobre 
um ponto consiste simplesmente em subtrair o conjunto de 
pixels localizados na linha superior dessa vizinhança dos pi- 
xels localizados na linha inferior, com isso se obtém a deri- 
vada parcial na direção x. Da mesma forma, subtraímos os 
pixels na coluna esquerda dos pixels na coluna da direita 
para obter a derivada parcial na direção y. Depois, usando 
essas diferenças como nossas estimativas das derivadas par- 
ciais, segue que Of/Oy = -2 e 9f/0x = 2 no ponto em questão. 
Então, 


of 
By Ox —2 
V = = = 
i g| or. 2 
oy 


a partir da qual obtemos M(x, y) = aD naquele ponto. Da 
mesma forma, a direção do vetor gradiente no mesmo ponto 


é produto da Equação 10.2-11: a(x, y) = tg !(gy/gx) = —45º, 
que é o mesmo que 135º medido no sentido positivo em re- 
lação ao eixo x. A Figura 10.12(b) mostra o vetor gradiente 
e o ângulo de sua direção. 


A Figura 10.12(c) ilustra o importante fato, mencionado 
anteriormente, de que a borda em um ponto é ortogonal ao 
sentido do vetor gradiente naquele ponto. Assim, o ângulo de 
direção da borda neste exemplo é a — 90º = 45º. Todos os pon- 
tos de borda na Figura 10.12(a) têm o mesmo gradiente, então 
todo o segmento de borda está na mesma direção. O vetor gra- 
diente às vezes é chamado de vetor normal da borda. Quando o 
vetor é normalizado para o comprimento da unidade, dividin- 
do-o por sua magnitude (Equação 10.2-10), o vetor resultante 
é comumente chamado de vetor normal unitário da borda. 

E 


Operadores de gradiente 


A obtenção do gradiente de uma imagem requer o 
cálculo das derivadas parciais Of/Ox e Ofldy em qualquer 
posição da imagem. Estamos lidando com quantidades 
digitais; por isso, uma aproximação digital das derivadas 
parciais em uma vizinhança sobre um ponto é necessária. 
Da Seção 10.2.1, sabemos que 


g ED firtl y) fixy) (102-12) 
X 
E 

g, = PED fixy- fix) (10.2-13) 


Essas duas equações podem ser implementadas para 
todos os valores pertinentes x e y, filtrando f(x, y) com as 
máscaras 1-D na Figura 10.13. 


Quando o objeto de interesse trata-se de uma borda 
inclinada (direção diagonal), precisamos de uma máscara 
2-D. Os operadores de gradiente cruzado de Roberts [Roberts 
(1965)] são uma das primeiras tentativas de usar másca- 
ras 2-D com preferência na diagonal. Considere a região 
3 x 3 na Figura 10.14(a). Os operadores de Roberts estão 
baseados na implementação de diferenças diagonais” 


Vetor g 


radiênte Vetor gradidnte 


E se 


OW: 


Direção da borda 


Figura 10.12 Usando o gradiente para determinar a intensidade e a direção da borda em um ponto. Repare que a borda é perpendicular à 
direção do vetor gradiente no ponto onde o gradiente é computado. Cada quadrado na figura representa um pixel. 


* No restante desta seção, assumimos implicitamente que fé dada em função de duas variáveis e omitimos as variáveis para simplificar a notação. 


Figura 10.13 Máscaras unidimensionais utilizadas para implemen- 
tar as equações 10.2-12 e 10.2-13. 


SO apo É 
8. =a = (Zs Z5) (10.2-14) 
e 
s = Z= -z (10.2-15) 


Essas derivadas podem ser implementadas filtrando 
uma imagem com as máscaras apresentadas nas figuras 
10.14(b) e (c). 

As máscaras de tamanho 2 x 2 são simples conceitual- 
mente, mas não são tão úteis para calcular a direção da 
borda quanto as máscaras que são simétricas ao redor do 
ponto central, das quais as menores são de tamanho 3 x 3. 
Essas máscaras levam em consideração a natureza dos da- 
dos nos lados opostos do ponto central e, assim, carregam 
mais informações a respeito da direção de uma borda. As 
aproximações digitais mais simples para as derivadas par- 
ciais usando máscaras de tamanho 3 x 3 são dadas por” 


s=- r++) -a+ +z) ELR 
e 
ð 
By = eat t a) +2442) (10.2-17) 


Nestas formulações, a diferença entre a terceira e a primei- 
ra linha da região 3 x 3 aproxima a derivada na direção do 
eixo x, e a diferença entre a terceira e a primeira coluna 
aproxima a derivada na direção de y. Intuitivamente, es- 
peraríamos que essas aproximações fossem mais precisas 
do que as aproximações obtidas utilizando os operadores 
de Roberts. As equações 10.2-16 e 10.2-17 podem ser exe- 
cutadas ao longo de uma imagem inteira, filtrando f com 
as duas máscaras nas figuras 10.14(d) e (e). Estas máscaras 
recebem o nome de operadores de Prewitt [Prewitt (1970)]. 


Uma ligeira variação das últimas duas equações uti- 
liza o valor 2 como peso no centro do coeficiente: 


* Embora essas equações abranjam uma vizinhança maior, ainda 
estamos lidando com as diferenças entre os valores de intensidade; 
por isso, as conclusões das discussões anteriores sobre as deriva- 
das de primeira ordem ainda se aplicam. 
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7 8 9 
b c 
-1 0 0 -l 
0 l l 0 
d Roberts e 
-l -] -l -l 0 1 
0 0 0 -1 0 l 
l 1 1 -l 0 1 
f Prewitt g 
-] -2 -l -l 0 l 
0 0 0 -2 0 2 
l 2 l -l 0 l 
Sobel 
Uma região 3 x 3 de uma imagem (os zs são valores de in- 


Figura 10.14 
tensidade) e várias máscaras usadas para calcular o gradiente no ponto z.” 


s, = La (2,424 +2))-( +27, +z) (10.2-18) 
e 
of 
ey ia O a a (10.2-19) 


Pode ser demonstrado (Exercício 10.10) que a utilização do 
valor 2 na posição central produz a suavização da imagem. 
As figuras 10.14(f) e (g) mostram as máscaras utilizadas para 
implementar as equações 10.2-18 e 10.2-19. Essas máscaras 
são chamadas de operadores de Sobel [Sobel (1970)]. 


As máscaras de Prewitt são mais simples de imple- 
mentar do que as máscaras de Sobel, mas a ligeira diferença 


“ As máscaras de filtro usadas para calcular as derivadas necessárias 
para o gradiente são frequentemente chamadas de operadores de 
gradiente, operadores de diferença, operadores de borda ou detectores de 
borda. 
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de cálculo entre elas normalmente não é um problema. O 
fato de as máscaras de Sobel apresentarem melhor supres- 
são de ruído (suavização) faz com que sejam preferiveis, 
porque, como mencionado na seção anterior, a supressão 
do ruído é uma questão importante quando se lida com 
derivadas. Note que os coeficientes de todas as máscaras 
na Figura 10.14 somam zero, dando, assim, uma resposta 
nula nas áreas de intensidade constante, como esperado 
para um operador derivativo. 


As máscaras que acabamos de discutir são utilizadas 
para obter os componentes de gradiente g, e g, em cada 
endereço de pixel da imagem. Essas duas derivadas par- 
ciais são, então, utilizadas para estimar a intensidade e a 
direção da borda. Calcular a magnitude do gradiente exi- 
ge que g, e g, sejam combinados da maneira descrita pela 
Equação 10.2-10. No entanto, essa aplicação nem sempre 
é desejável em razão do custo computacional exigido pe- 
los quadrados e pelas raízes quadradas. Uma abordagem 
usada frequentemente é aproximar a magnitude do gra- 
diente usando valores absolutos: 


M(x,y) = |g] + Ig, (10.2-20) 


Essa equação é computacionalmente mais atraente e ain- 
da preserva mudanças relativas nos níveis de intensidade. 
O preço pago por essa vantagem é que os filtros resultan- 
tes não serão isotrópicos (invariantes à rotação) em geral. 
No entanto, este não é um problema quando máscaras 
como as de Sobel e de Prewitt são usadas para computar 
9, € J, porque essas máscaras dão resultados isotrópicos 
apenas para bordas verticais e horizontais. Os resultados 
seriam isotrópicos apenas para bordas nessas duas dire- 
ções, independentemente de qual das duas equações for 
utilizada. Além disso, as equações 10.2-10 e 10.2-20 pro- 
duzem resultados idênticos para as bordas verticais e ho- 
rizontais quando as máscaras de Sobel ou de Prewitt são 
usadas (Exercício 10.8). 


É possível modificar as máscaras 3 x 3 na Figura 
10.14 para que suas respostas tenham mais intensidades 
ao longo das direções diagonais. A Figura 10.15 mostra 
as duas máscaras adicionais de Prewitt e de Sobel neces- 
sárias para a detecção de bordas nas direções diagonais. 


Exemplo 10.6 Ilustração da magnitude e do ângulo 


(direção) do gradiente 2-D. 

A Figura 10.16 ilustra a resposta do valor absoluto dos 
dois componentes do gradiente, Ig | e Ig bem como a ima- 
gem do gradiente formada a partir da soma desses dois com- 
ponentes. A direcionalidade dos componentes horizontais e 
verticais do gradiente é evidente nas figuras 10.16(b) e (c). 
Observe, por exemplo, quão forte é a telha, as juntas dos ti- 
jolos horizontais e os segmentos horizontais das janelas na 


a Prewitt b 
0 l l -l1 -l 0 
-l 0 l -l 0 1 
-l -l 0 0 1 1 

c Prewitt d 
0 l 2 -2 — 0 
-l 0 l -l1 0 1 
-2 -l 0 0 1 2 

Sobel 


Figura 10.15 Máscaras de Prewitt e de Sobel para a detecção de 
bordas diagonais. 


Figura 10.16(b) em relação às outras bordas. Em contrapar- 
tida, a Figura 10.16(c) favorece as características dos compo- 
nentes verticais da fachada e das janelas. É comum usar o 
termo mapa de bordas quando falamos de uma imagem cujas 
características principais são as bordas, como as imagens de 
magnitude do gradiente. A intensidade da imagem na Figura 
10.16(a) foi ajustada para o intervalo [0, 1]. Utilizamos valo- 
res nesse intervalo para simplificar a seleção de parâmetros 
nos diversos métodos para a detecção de bordas discutidos 
nesta seção. 


Figura 10.16 


(a) Imagem original com tamanho 834 x 1.114 pixels 
com valores de intensidade ajustados para o intervalo [0, 1]. (b) |g, o 
componente do gradiente na direção x, obtido utilizando a máscara de 
Sobel na Figura 10.14(f) para filtrar a imagem. (c) Ig. obtida utilizando 
a máscara da Figura 10.14(g). (d) Imagem de gradiente, |g] + |g]. 


A Figura 10.17 mostra a imagem do ângulo do gra- 
diente calculado usando a Equação 10.2-11. Em geral, as 
imagens de ângulos não são tão úteis quanto as imagens 
de magnitude do gradiente para a detecção de bordas, mas 
complementam as informações extraídas de uma imagem 
usando a magnitude do gradiente. Por exemplo, as áreas 
de intensidade constante na Figura 10.16(a), como a borda 
frontal do telhado inclinado e as faixas superiores horizon- 
tais do muro da frente são constantes na Figura 10.17, indi- 
cando que a direção do vetor gradiente em todas as localiza- 
ções de pixel nessas regiões é a mesma, 

Como mostramos na Seção 10.2.6, as informações so- 
bre o ângulo desempenham um papel fundamental de apoio 
na implementação do algoritmo de detecção de bordas de 
Canny, o método mais avançado de detecção de borda que já 
foi discutido neste capítulo. 

= 


A imagem original da Figura 10.16(a) tem uma re- 
solução razoavelmente alta (834 x 1.114 pixels) e, à dis- 
tância que a imagem foi registrada, a contribuição feita ao 
detalhe da imagem pela parede de tijolos é significativa. 
Esse nível fino de detalhamento muitas vezes é indese- 
jável para a detecção de bordas, pois tende a agir como 
ruído, já que é realçado por cálculos derivativos e difi- 
culta a detecção das principais bordas de uma imagem.” 
Uma maneira de reduzir o detalhamento fino é suavizar 
a imagem. A Figura 10.18 mostra a mesma sequência de 
imagens da Figura 10.16, mas com a imagem original 
suavizada primeiro utilizando um filtro de média 5 x 5 
(ver Seção 3.5 sobre os filtros de suavização). A respos- 
ta de cada máscara mostra agora que quase não há con- 
tribuição dos tijolos, e que os resultados são dominados 
principalmente pelas bordas principais. 


Figura 10.17 Imagem do ângulo do gradiente calculado utilizando 
a Equação 10.2-11. As áreas de intensidade constante nesta imagem 
indicam que a direção do vetor gradiente é a mesma para todas as 
posições de pixel nessas regiões. 


* A intensidade máxima da borda (magnitude) de uma imagem 
suavizada diminui inversamente em função do tamanho da 
máscara de suavização (Exercício 10.13). 
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Figura 10.18 A mesma sequência da Figura 10.16, mas com a ima- 
gem original suavizada com um filtro de média 5 x 5 antes da detec- 
ção da borda. 


É evidente, a partir das figuras 10.16 e 10.18, que as 
máscaras horizontais e verticais de Sobel não fazem dis- 
tinção entre as bordas orientadas na direção de +45º. Se 
for importante destacar as bordas ao longo das direções 
diagonais, teríamos de usar uma das máscaras da Figura 
10.15. As figuras 10.19(a) e (b) mostram o valor abso- 
luto das respostas das máscaras de Sobel de 45º e —45º, 
respectivamente. A alta intensidade nas bordas diagonais 
obtida como resposta dessas máscaras é evidente nessas 
figuras. Ambas as máscaras diagonais têm uma respos- 
ta semelhante para bordas horizontais e verticais, mas, 
como esperado, sua resposta nessas direções é mais fraca 
que a resposta das máscaras horizontais e verticais, como 
discutido anteriormente. 


Combinando o gradiente com a limiarização 


Os resultados da Figura 10.18 mostram que a detec- 
ção de bordas pode ser mais seletiva suavizando a imagem 
antes do cálculo do gradiente. Outra abordagem que visa 


Figura 10.19 Detecção de borda diagonal. (a) Resultado do uso da 
máscara na Figura 10.15(c). (b) Resultado do uso da máscara na Figura 
10.15(d). A imagem de entrada em ambos os casos foi a Figura 10.18(a). 
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alcançar o mesmo objetivo é a limiarização da imagem 
gradiente. Por exemplo, a Figura 10.20(a) mostra a ima- 
gem gradiente da Figura 10.16(d) com uma limiarização, 
no sentido de que os pixels com valores iguais ou supe- 
riores a 33% do valor máximo da imagem gradiente são 
mostrados em branco, enquanto os pixels abaixo do limiar 
são mostrados em preto. Comparando essa imagem com a 
Figura 10.18(d), vemos que há menos bordas na imagem 
com o limiar determinado e que as bordas dessa imagem 
são muito mais acentuadas (ver, por exemplo, as bordas 
das telhas). Por outro lado, várias bordas, como a da linha 
de 45º que define o limite extremo do telhado, são discri- 
minadas na imagem com o limiar estabelecido. 


Quando o interesse consiste tanto em destacar as 
bordas principais quanto em manter a conectividade, a 
prática comum é o uso da suavização e da limiarização. 
A Figura 10.20(b) mostra o resultado da limiarização na 
Figura 10.18(d), que é o gradiente da imagem suavizada.” 
Esse resultado mostra uma redução do número de bor- 
das quebradas; por exemplo, compare as bordas de 45º 
nas figuras 10.20(a) e (b). Evidentemente, as bordas cujos 
valores de intensidade foram intensamente atenuados em 
virtude do borramento (por exemplo, as bordas em forma 
de telhado) podem ser totalmente eliminadas pela limiari- 
zação. Voltaremos a esse problema das bordas quebradas 
na Seção 10.2.7. 


10.2.6 Técnicas mais avançadas para detecção de 
bordas 
Os métodos de detecção de bordas discutidos na 
seção anterior baseiam-se simplesmente na filtragem de 
uma imagem com uma ou mais máscaras, sem levar em 
consideração informantes referentes às características da 


Figura 10.20 
imagem apresentada na Figura 10.16(d), tendo sido escolhido 33% do 
valor do maior pixel da imagem como valor do limiar; este limiar foi 
alto o suficiente para eliminar a maioria das bordas dos tijolos na ima- 
gem gradiente. (b) Versão obtida pela utilização do limiar na imagem 
apresentada na Figura 10.18(d), tendo sido escolhido como limiar 33% 
do valor do maior pixel dessa imagem. 


(a) Imagem obtida através da utilização do limiar na 


O limiar utilizado para gerar a Figura 10.20(a) foi selecionado de 
modo que a maioria das pequenas bordas causadas pelos tijolos fos- 
sem eliminadas. Lembre-se que este era o objetivo inicial da sua- 
vização da imagem na Figura 10.16 antes de calcular o gradiente. 


borda ou ruído. Nesta seção, discutem-se técnicas mais 
avançadas que tentam melhorar os métodos simples de 
detecção de bordas tendo em conta fatores como ruído da 
imagem e a natureza das próprias bordas. 


O detector de borda Marr-Hildreth 


Uma das primeiras tentativas bem-sucedidas de in- 
corporar análises mais sofisticadas no processo de busca 
das bordas é atribuída a Marr e Hildreth (1980). Os mé- 
todos de detecção de bordas até o momento baseavam- 
se no uso de pequenos operadores (como as máscaras de 
Sobel), como discutido na seção anterior.” Marr e Hildreth 
acreditavam que: (1) as mudanças de intensidade não 
são independentes da escala da imagem e, portanto, sua 
detecção requer o uso de operadores de diferentes tama- 
nhos; e (2) que uma mudança súbita de intensidade dará 
origem a um pico ou um vale na primeira derivada ou, 
equivalentemente, a um cruzamento por zero da segun- 
da derivada (como vimos na Figura 10.10). 


Essas ideias sugerem que um operador usado para 
a detecção de bordas deve ter duas características princi- 
pais. Em primeiro lugar, deve ser um operador diferencial 
capaz de computar uma aproximação digital da primeira 
ou segunda derivada em cada ponto na imagem. Em se- 
gundo lugar, deve ser capaz de ser “sintonizado” para agir 
em qualquer escala desejada, de modo que os grandes 
operadores possam ser usados para detectar bordas bor- 
radas, e os pequenos operadores, para detectar detalhes 
finos com foco nítido. 


Marr e Hildreth argumentavam que o operador que 
cumpria essas condições de maneira mais satisfatória era 
o filtro V2G, no qual, tal como definido na Seção 3.6.2, 
V? é o operador laplaciano, (07/0x? + 07/ dy*),e Géa 
função gaussiana 2-D™ 


24 y2 


a +y 


G(x, y) =e 2 (10.2-21) 


com desvio padrão o (às vezes o é chamado de espaço cons- 
tante). Para encontrar uma expressão para V2G, realiza- 
mos as diferenciações a seguir: 


* Para se convencer de que a detecção de bordas não é indepen- 
dente da escala, considere, por exemplo, a borda em forma de 
telhado na Figura 10.8(c). Se a escala da imagem for reduzida, a 
borda vai parecer mais fina. 


* É habitual que a Equação 10.2-21 seja diferente da definição de 
uma PDF gaussiana 2-D pelo termo constante 1/2707. Se uma 
expressão exata é desejada em uma determinada aplicação, então 
a constante de multiplicação pode ser anexada ao resultado final 
na Equação 10.2-23. 


V°G(x,y) 
r 2 2 
Ox Oy 
22 ee 
OS oe ky EY ae 
T 
Ox o? Oy o? 
2 sa 2 _ xty? 
= x ot 20? i dh 20? 
4 2|€ + zle 
o o o oa 


(10.2-22) 


Juntando os termos teremos a expressão final: 


Ly ag 
4 


VºG(x,y)= e *” (10.2-23) 


o 


Esta expressão é chamada de laplaciano da gaussiana (LOG). 


As figuras 10.21(a) a (c) mostram um gráfico 3-D, 
uma imagem e uma seção transversal do negativo da 
função LoG (repare que o cruzamento por zero do LoG 
ocorre em x? + y? = 20°, o qual define um círculo de raio 
20 centrado na origem).“ Por causa da forma ilustrada 
na Figura 10.21 (a), a função de LoG por vezes é chamada 
de operador de chapéu mexicano. A Figura 10.21(d) apre- 


Cruzamento por zero 


e Cruzamento por zero 
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senta uma máscara 5 x 5 que se aproxima da forma da 
Figura 10.21 (a) (na prática, usamos o negativo dessa más- 
cara). Essa aproximação não é a única. Seu objetivo é 
capturar a forma essencial da função LoG; em termos da 
Figura 10.21 (a), isso significa um termo positivo e central 
rodeado por uma região adjacente negativa cujos valo- 
res aumentam em função da distância da origem, e uma 
região externa com zeros. Os coeficientes devem somar 
zero para que a resposta da máscara seja zero nas áreas 
de intensidade constante. 


As máscaras de tamanho arbitrário podem ser ge- 
radas pela amostragem da Equação 10.2-23 e ajustando 
os coeficientes de modo que a soma seja zero. Uma abor- 
dagem mais eficaz para gerar um filtro LoG é realizar a 
amostragem da Equação 10.2-21 para o tamanho n x n 
desejado e, em seguida, fazer a convolução” do arranjo 
resultante com uma máscara laplaciana, como por exem- 
plo a máscara da Figura 10.4(a).Já que fazer a convolu- 
ção de uma imagem com uma máscara cuja soma dos 
coeficientes é zero produz um resultado cujos elemen- 


> Nw =< 


Figura 10.21 


0 = =2 =] 0 
=i =2 16 =2 -1 
0 = =, =] 0 
0 0 =] 0 0 


(a) Gráfico tridimensional do negativo do LoG. (b) Negativo do LoG exibido como uma imagem. (c) Seção transversal de (a) mos- 


trando cruzamentos por zero. (d) Aproximação de máscara 5 x 5 para o formato em (a). Na prática, seria utilizado o negativo dessa máscara. 


Observe a semelhança entre a seção transversal na Figura 10.21(c) e o filtro passa-alta na Figura 4.37(d). Assim, podemos esperar que o 


LoG se comporte como um filtro passa-alta. 


O LoG é um filtro simétrico, por isso a filtragem espacial utilizando a correlação ou a convolução produz o mesmo resultado. Usamos 


a terminologia da convolução aqui para falar da filtragem linear visando à coerência com a literatura sobre o tema. Além disso, isto vai 
expor a você a terminologia que encontrará em outros contextos. É importante que você tenha em mente os comentários feitos no final 


da Seção 3.4.2 em relação a este tópico. 
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tos também somam zero (consulte os exercícios 3.16 e 
10.14), esta abordagem satisfaz automaticamente a exi- 
gência de que a soma dos coeficientes do filtro LoG seja 
zero. Discutiremos a questão da seleção do tamanho do 
filtro LoG posteriormente nesta seção. 


Existem duas ideias fundamentais por trás da esco- 
lha do operador V2G. Primeiro, a parte gaussiana do ope- 
rador borra a imagem, reduzindo a intensidade das estru- 
turas (incluindo o ruído) em escalas muito menores que 
o Ao contrário do filtro de média na forma discutida na 
Seção 3.5 e utilizada na Figura 10.18, a função gaussiana 
é suave tanto nos domínios espacial quanto na frequência 
(ver Seção 4.8.3) e, por isso, é menos provável que intro- 
duza artefatos (por exemplo, o ringing) que não estejam 
na imagem original. A outra ideia tem a ver com V’, a 
parte da segunda derivada do filtro. Apesar de as primei- 
ras derivadas poderem ser usadas para detectar mudanças 
bruscas de intensidade, elas são operadores direcionais. 
O laplaciano, por outro lado, tem a importante vanta- 
gem de ser isotrópico (invariante com a rotação), o que 
não só corresponde às características do sistema visual 
humano [Marr (1982)], mas também responde igual- 
mente às mudanças de intensidade em qualquer direção 
da máscara, evitando assim ter de usar várias máscaras 
para calcular a resposta mais intensas em qualquer pon- 
to da imagem. 


O algoritmo de Marr-Hildreth consiste na convolu- 
ção do filtro LoG com uma imagem de entrada, f(x, y), 


g(x, y) = [VºG(x, y)] x fix, y) 


e, então, encontrar o cruzamento por zero de g(x, y) para 
determinar a localização das bordas em f(x, y). Já que es- 
tes são processos lineares, a Equação 10.2-24 também 
pode ser escrita como” 


g(x,y) = VºG(x, y) x fix, y) 


indicando que podemos primeiro suavizar a imagem 
com um filtro gaussiano e depois calcular o laplaciano 
do resultado. Essas duas equações apresentam resultados 
idênticos. O algoritmo de detecção de bordas de Marr- 
-Hildreth pode ser resumido da seguinte forma: 


(10.2-24) 


(10.2-25) 


1. Filtrar a imagem de entrada com um filtro n x n 
gaussiano passa-baixa obtido pela amostragem da 
Equação 10.2-21. 

2. Calcular o laplaciano da imagem resultante da Eta- 
pa 1, utilizando, por exemplo, a máscara 3 x 3 na 


* Essa expressão é implementada no domínio espacial usando a 
Equação 3.4-2. Pode ser implementada também no domínio da 
frequência usando a Equação 4.7-1. 


Figura 10.4(a). (Os passos 1 e 2 utilizam a Equação 
10.2-25.) 


3. Encontrar o cruzamento por zero da imagem obtida 
na Etapa 2. 


Para especificar o tamanho do filtro gaussiano, lembre- 
-se de que cerca de 99,7% do volume sob uma superfi- 
cie gaussiana 2-D situa-se entre + 30 ao redor da média. 
Assim, como regra, o tamanho de um filtro discreto LoG 
n x n deve ser projetado de modo que n seja o menor 
inteiro ímpar maior ou igual a 60. Escolher uma máscara 
de filtro menor que isso tende a “truncar” a função LoG, 
e o grau de truncamento é inversamente proporcional 
ao tamanho da máscara; usar uma máscara maior faria 
pouca diferença no resultado. 


Uma metodologia para encontrar o cruzamento por 
zero em qualquer pixel, p, da imagem filtrada, g(x, y), é 
baseada no uso de uma vizinhança de 3 x 3 centrada em 
p. Um cruzamento por zero de p implica que os sinais de 
pelo menos dois de seus pixels vizinhos opostos devem ser 
diferentes. Há quatro casos para testar: esquerda/direita, 
acima/abaixo e as duas diagonais. Se os valores de g(x, y) 
estiverem sendo comparados com um limiar (um método 
comum), então não somente os sinais dos vizinhos opostos 
devem ser diferentes, mas o valor absoluto da sua diferen- 
ça numérica também deve ultrapassar o limiar antes de 
podermos chamar p de pixel cruzamento por zero. Ilustra- 
mos este método no Exemplo 10.7 a seguir.” 


Os cruzamentos por zero são o elemento-chave 
do método de detecção de bordas de Marr-Hildreth. A 
abordagem discutida no parágrafo anterior é atrativa em 
razão de sua simplicidade de implementação e porque 
geralmente dá bons resultados. Se a precisão dos locais 
de cruzamento por zero encontrados usando este método 
for inadequada em uma aplicação específica, então a téc- 
nica proposta por Huertas e Medioni (1986) para encon- 
trar os cruzamentos por zero com precisão de subpixel 
pode ser empregada. 


Exemplo 10.7 Ilustração do método de detecção de 


bordas de Marr-Hildreth. 


A Figura 10.22(a) mostra a imagem original do edifício 
utilizada anteriormente, e a Figura 10.22(b) é o resultado das 
etapas 1 e 2 do algoritmo de Marr-Hildreth, usando o = 4 
(cerca de 0,5% da menor dimensão da imagem) en = 25 (o 
menor número inteiro ímpar maior ou igual a 60, como dis- 
cutido anteriormente). Como na Figura 10.5, os tons de cin- 


* Tentar encontrar o cruzamento por zero buscando as coordenadas 
(x, y), de forma que g(x, y) = O resulta em um resultado pouco prá- 
tico em virtude do ruído e/ou das imprecisões computacionais. 


Figura 10.22 (a) Imagem original de tamanho 834 x 1.114 pixels 
com valores de intensidade ajustados para o intervalo [0, 1]. (b) Resul- 
tados das etapas 1 e 2 do algoritmo de Marr-Hildreth usando o =4 e 
n =25. (c) Cruzamentos por zero de (b) utilizando o valor 0 como limiar 
(repare nas bordas parecidas com contornos fechados). (d) Cruzamen- 
tos por zero encontrados utilizando um limiar igual a 4% do maior 
valor de pixel encontrado em (b). Observe as bordas finas. 


za na imagem são devidos ao ajuste de intensidade.A Figura 
10.22(c) mostra os cruzamentos por zero obtidos utilizando o 
método da vizinhança 3 x 3 discutido acima, com um limiar 
de valor zero. Nota-se que todas as bordas formam caminhos 
fechados. Este efeito, conhecido como “espaguete”, é uma 
séria desvantagem dese método que ocorre quando o valor 
O (zero) é utilizado como limiar (Exercício 10.15). Evitamos 
este problema utilizando um limiar positivo. 


A Figura 10.22(d) mostra o resultado da utilização de 
um limiar próximo a 4% do valor máximo da imagem LoG. 
Repare que a maioria das bordas principais foi detectada fa- 
cilmente e as características “irrelevantes”, como as bordas 
produzidas pelos tijolos e as telhas, foram filtradas. Como 
mostraremos na próxima seção, este tipo de desempenho 
é praticamente impossível de obter usando as técnicas de 
detecção de bordas baseadas no gradiente discutidas na se- 
ção anterior. Outra consequência importante da utilização 
de cruzamentos por zero para a detecção de bordas é que as 
bordas resultantes são de 1 pixel de espessura. Essa proprie- 
dade simplifica as etapas subsequentes do processamento, 
como a conexão de bordas. 

E 


Um procedimento usado às vezes para levar em 
consideração o fato mencionado anteriormente de que 
as mudanças de intensidade são dependentes da escala 
é filtrar uma imagem com vários valores de ø. Os mapas 
de borda com os cruzamentos por zero resultantes são, 
então, combinados mantendo apenas as bordas que são 
comuns a todos os mapas. Esta abordagem pode produzir 
informações úteis, mas, em virtude de sua complexidade, 


Segmentação de imagens 473 


é usada na prática principalmente como uma ferramenta 
de desenvolvimento para selecionar um valor apropriado de 
o para usar com um único filtro. 


Marr e Hildreth (1980) observaram que é possível 
aproximar o filtro LoG da Equação 10.2-23 a uma dife- 
rença de gaussianas (DoG):” 


Ay ay? 
a l 2of 203 
DoG(x, y)= Tê e 
1 


(10.2-26) 


com o,>o,. Os resultados experimentais sugerem que certos 
“canais” no sistema de visão humana são seletivos no que diz 
respeito à orientação e à frequência e podem ser modelados 
usando a Equação 10.2-26 com um raio de desvios padrão de 
1,75:1. Marr e Hildreth sugeriram que a utilização da razão 
1,6:1 mantém as características básicas dessas observações 
e também oferece uma aproximação de “engenharia” mais 
próxima da função LoG. Para fazer comparações significati- 
vas entre o LoG e o DoG, o valor de o para LoG deve ser se- 
lecionado como na equação a seguir para que o LoG e o DoG 
tenham os mesmos cruzamentos por zero (Exercício 10.17): 


o 


2 
0, 


oo 2 
20 12 1 
dé ES In 
o, 0, 


(10.2-27) 


Embora o cruzamento por zero de LoG e DoG seja o 
mesmo quando o mesmo valor de o é usado, suas escalas 
de amplitude serão diferentes. Podemos torná-las com- 
patíveis ajustando ambas as funções para que tenham o 
mesmo valor na origem 


Os perfis das figuras 10.23(a) e (b) foram gerados com 
taxas de desvio padrão de 1:1,75 e 1:1,6, respectivamente 
(por respeito à convenção, as curvas indicadas são inver- 
tidas, como na Figura 10.21). Os perfis LoG são mostrados 
como linhas sólidas, enquanto os perfis DoG são pontilha- 
dos. As curvas mostradas são perfis de intensidade que passa 
pelo centro dos arranjos LoG e DoG gerados pela amostra- 


Figura 10.23 (a) Negativos dos perfis de LoG (sólida) e DoG (ponti- 
lhada) usando um desvio padrão de razão 1,75:1. (b) Perfis obtidos com 
uma proporção de 1,6:1. 


* A diferença de gaussianas é um filtro passa-alta como foi discuti- 
do na Seção 4.7.4. 
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gem da Equação 10.2-23 (com a constante em 1/2 mo? na 
frente) e a Equação 10.2-26, respectivamente. A amplitude 
de todas as curvas na origem foi normalizada para 1. Con- 
forme a Figura 10.23(b) mostra, a razão 1:1,6 produz uma 
maior aproximação entre as funções LoG e DoG. 


Tanto as operações de filtragem LoG quanto DoG 
podem ser aplicadas através das convoluções 1-D em vez 
de usar convoluções 2-D diretamente (Exercício 10.19). 
Para uma imagem de tamanho M x N e um filtro de ta- 
manho n x n, isso reduz o número de multiplicações e 
adições para cada convolução ser proporcional à n2MN 
para as convoluções 2-D serem proporcionais a nMN para 
as convoluções 1-D. Essa diferença de execução é signifi- 
cativa. Por exemplo, se n = 25, uma implementação 1-D 
resulta em cerca de 12 vezes menos operações de multi- 
plicação e adição do que no uso de uma convolução 2-D. 


O detector de Bordas de Canny 


Embora o algoritmo seja mais complexo, o desem- 
penho do detector de bordas de Canny [Canny (1986)] 
discutido nesta seção é superior, em geral, aos detectores 
de borda discutidos até agora. A abordagem de Canny 
baseia-se em três objetivos básicos: 


1. Baixa taxa de erro. Todas as bordas deverão ser en- 
contradas e não deve haver respostas espúrias. Ou 
seja, as bordas detectadas devem ser o mais próxi- 
mas possível das bordas verdadeiras. 


2. Os pontos de borda devem estar bem localizados. As bor- 
das detectadas devem ser o mais próximas possível 
das bordas verdadeiras. Isto é, a distância entre um 
ponto marcado como uma borda pelo detector e o 
centro da borda verdadeira deve ser mínima. 


3. Resposta de um único ponto de borda. O detector deve re- 
tornar apenas um ponto para cada ponto de borda ver- 
dadeiro. Ou seja, o número de máximos locais em tor- 
no da borda verdadeira deve ser mínimo. Isso significa 
que o detector não deve identificar múltiplos pixels de 
borda em que apenas um único ponto de borda existe. 


A essência do trabalho de Canny foi expressar os 
três critérios matematicamente e tentar encontrar solu- 
ções ótimas para essas formulações. Em geral, é difícil (ou 
impossível) encontrar uma solução fechada que satisfaça 
todos os objetivos anteriores. No entanto, usar a otimiza- 
ção numérica com bordas de degrau 1-D corrompidas por 
ruído branco” gaussiano aditivo levam à conclusão de que 


* Lembre-se de que o ruído branco é um ruído com espectro de 
frequência contínuo e uniforme sobre uma banda de frequên- 
cia específica. O ruído branco gaussiano é um ruído branco em 
que a distribuição dos valores de amplitude é gaussiana. Ruído 
branco gaussiano é uma boa aproximação para muitas situações 
do mundo real e gera modelos que podem ser acompanhados 
matematicamente. Ela tem a propriedade de que os valores são 
estatisticamente independentes. 


uma boa aproximação” para o detector ótimo de bordas 
de degrau é a primeira derivada de uma gaussiana: 


(10.2-28) 


Generalizar este resultado para 2-D envolve reconhecer 
que a abordagem 1-D ainda aplica na direção do vetor 
normal à borda (ver Figura 10.12). Já que a direção da nor- 
mal é desconhecida previamente, isto exigiria a aplicação 
do detector de borda 1-D em todas as direções possíveis. 
Esta tarefa pode ser feita suavizando primeiro a imagem 
com uma função gaussiana circular 2-D, calcular o gra- 
diente do resultado e, em seguida, usar a magnitude do 
gradiente e a direção para estimar a intensidade da borda 
e a direção em cada ponto. 


Digamos que f(x, y) denota a imagem de entrada e 
G(x, y) denota a função gaussiana: 


o 
x+y 


G(x,y)=e 2” (10.2-29) 


Formamos uma imagem suavizada, f(x, y), por convolu- 
ção de G e f: 
f(x, y) = G(x, x fix, y) (10.2-30) 


Esta operação é seguida pelo cálculo da magnitude e da 
direção (ângulo) do gradiente, como discutido na Seção 


10.2.5: 
M(x,y)= gi +g (10.2-31) 
e 
Bs 
a(x,y)=tg |— (10.2-32) 
8x 


com g, = Of/Ox e g, = 0f/0y. Qualquer um dos pares de 
máscara de filtragem apresentados na Figura 10.14 pode 
ser usado para obter g, e q, A Equação 10.2-30 é im- 
plementada usando uma máscara gaussiana n x n cujo 
tamanho é discutido abaixo. Tenha em mente que M(x, y) 
e a(x, y) são arranjos do mesmo tamanho que a imagem 
a partir da qual foram calculados. 


Como ele é gerado utilizando o gradiente, M(x, y) 
geralmente contém cristas largas em torno dos máximos 
locais (lembre-se da discussão na Seção 10.2.1 sobre as 
bordas obtidas com o gradiente). O próximo passo é afi- 
nar aquelas cristas. Um método que pode ser empregado 
é a utilização da supressão dos não máximos. Isso pode ser 


“ Canny (1986) demonstrou que o uso de uma aproximação gaus- 
siana é apenas 20% pior do que usar a solução numérica otimi- 
zada: A diferença desta magnitude geralmente é imperceptível na 
maioria das aplicações. 


feito de várias maneiras, mas a metodologia tem como 
essência especificar um número de orientações discretas 
da normal da borda (vetor gradiente). Por exemplo, em 
uma região 3 x 3 podemos definir quatro orientações” 
para uma borda que passa pelo ponto central da região: 
horizontal, vertical, +45º e —45º. A Figura 10.24(a) mos- 
tra a situação para as duas orientações possíveis de uma 
borda horizontal. Já que temos de quantizar em quatro 
valores todas as direções possíveis da borda, temos de 
definir uma série de direções sobre o que consideramos 
ser uma borda horizontal. Determinamos a direção da 
borda a partir da direção do vetor normal à borda, que é 
obtida diretamente a partir dos dados da imagem usando 
a Equação 10.2-32. Conforme a Figura 10.24(b) mostra, 
se a normal da borda no intervalo de -22,5º até 22,5º ou 
de -157,5° até 157,5º, chamamos a borda de borda hori- 
zontal. A Figura 10.24(c) mostra os intervalos do ângulo 
correspondentes às quatro direções em consideração. 


Consideramos que d,, d, d,e d, denotam as qua- 
tro direções básicas da borda discutidas para uma região 
3 x 3: horizontal, -45°, vertical, e +45°, respectivamen- 
te. Podemos formular o seguinte esquema de supressão 
de não máximos de uma região 3 x 3 centrada em todos 
os pontos (x, y) de a(x, y): 
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1. Encontre a direção d, que está mais perto de a(x, y). 


2. Seo valor de M(x, y) for inferior a pelo menos um dos 
seus dois vizinhos ao longo de d,, deixe g,(x, y) = 0 
(supressão); caso contrário, deixe g„(x, y) = M(x, y) 

na qual g(x, y) é imagem com supressão de não máxi- 
mos. Por exemplo, com referência à Figura 10.24(a), dei- 
xando (x, y) em p, e assumindo uma borda horizontal até 
P; OS pixels em que estaríamos interessados na Etapa 2 
são p, € p, A Imagem g,(x, y) contém apenas as bordas 
afinadas; é igual a M(x, y) com os pontos de borda não 
máximos suprimidos. 


A operação final é a limiarização de g, (x, y) para redu- 
zir os falsos pontos de borda. Na Seção 10.2.5 fizemos isso 
usando um único limiar em que todos os valores abaixo 
do limiar eram definidos como 0. Se definirmos um limiar 
muito baixo, haverá ainda algumas bordas falsas (chama- 
das falsos positivos). Se o limiar for muito elevado, então os 
pontos de borda válidos serão eliminados (falsos negativos). 
O algoritmo de Canny tenta melhorar essa situação utili- 
zando a limiarização por histerese, que, como discutimos na 
Seção 10.3.6, usa dois limiares: um limiar baixo, T,, e um 
limiar alto, T,. Canny sugeriu que a razão do limiar alto 
para o baixo deve ser de dois ou três para um. 


a b =157,5º +157,5º 
Normal da borda 
=y 
Borda Normal da borda 
(vetor gradiente) 
=225" l +22,5° 
x 
c —157,5° +157,5° 


—112,5° 


—67,5º 


Figura 10.24 


+22,5º 


Borda +45º 


+112,5° 


~— Borda vertical 


+67,5º 


Borda —45º 


Borda horizontal 


(a) Duas orientações possíveis de uma borda horizontal (em cinza) em uma vizinhança 3 x 3 (b) Intervalo de valores (em cinza) 


de a, a direção do ângulo da normal da borda, para uma borda horizontal. (c) Os intervalos de ângulo para os normais da borda para os quatro 
tipos de direções de borda em uma vizinhança 3 x 3. Cada direção da borda tem dois intervalos mostrados nos tons de cinza correspondentes. 


* Leve em consideração que cada borda tem duas possíveis orientações. Por exemplo, uma borda cuja normal está orientada a 0º e uma 


borda cuja normal está orientada a 180º são a mesma borda horizontal. 
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Podemos visualizar a operação de limiarização como 
a criação de duas imagens adicionais 


Ema) = 44 y) 2 T, (10.2-33) 


But Y) = EA Y) ZT, (10.2-34) 


na qual, inicialmente, tanto g,,,(x, Y) € 9,,(X, Y) são defi- 
nidos como 0. Após a limiarização, g,,,,(x, y) terá menos 
pixels zero que g,, (x, y) em geral, mas todos os pixels di- 
ferentes de zero em g,,,(x, y) serão contidos em q, (x, y) 
porque a ultima imagem é formada com um limiar mais 
baixo. Eliminamos de g,, (x, y) todos os pixels diferentes 
de zero de g,,,(x, y) deixando 


Sup (% V) = Bu X Y) — Bulk, Y) (10.2-35) 


Os pixels diferentes de zero em g,,,(x, Y) € Iy, (x, y) podem 
ser vistos como pixels de borda “fortes” e “fracos”, res- 
pectivamente. 

Após as operações de limiarização, todos os pixels 
fortes em g,,,(x, y) são assumidos como pixels de borda 
válidos e são marcados como tal imediatamente. Depen- 
dendo do valor de T,, as bordas em g,,,(x, y) comumente 
apresentam falhas. As bordas mais longas são formadas 
por meio do seguinte procedimento: 

(a) Localize o próximo pixel de borda a ser revisado, p, 

EM Iyl% J): 

(b) Marque como pixels de borda válidos todos os 


pixels fracos em q, (x, y) que estão conectados a p 
usando, por exemplo, a conectividade-8. 


(c) Se todos os pixels diferentes de zero em g(x, y) fo- 
ram revisados, vá para a Etapa d. Se não, volte para 
a Etapa a. 


(d) Atribua zero a todos os pixels de g,, (x, y) que não 
foram marcados como pixels de borda válidos. 


Ao final deste processo, a imagem final fornecida pelo 
algoritmo de Canny é formada atribuindo a q, (x, y) todos 
os pixels de q, (x, y) diferentes de zero. 


Usamos duas imagens adicionais, g,,,(x, Y) € Jy, (%, Y) 
para simplificar a discussão. Na prática, a limiarização por 
histerese pode ser aplicada diretamente durante a supres- 
são não máxima e a limiarização pode ser aplicada direta- 
mente em g, (x, y), formando uma lista dos pixels fortes e 
dos pixels fracos conectados a eles. 


Resumindo, o algoritmo de detecção de bordas de 
Canny é composto pelas seguintes etapas básicas: 


1. Suavizar a imagem de entrada com um filtro gaussiano. 


2. Calcular a magnitude do gradiente e os ângulos das 
imagens. 

3. Aplicar a supressão não máxima na imagem da 
magnitude do gradiente. 


4. Usar a dupla limiarização e a análise de conectivida- 
de para detectar e conectar as bordas. 


Embora as bordas após a supressão não máxima sejam 
mais finas do que as bordas de gradiente originais, as bor- 
das cuja espessura for maior que 1 pixel ainda podem 
permanecer. Para obter bordas de 1 pixel de espessura, é 
normal seguir a Etapa 4 utilizando o algoritmo de afina- 
mento das bordas (ver Seção 9.5.5). 


Como mencionado anteriormente, a suavização é rea- 
lizada pela convolução da imagem de entrada com uma 
máscara gaussiana cujo tamanho, n x n, deve ser estabele- 
cido. Podemos usar a metodologia discutida na seção ante- 
rior a respeito do algoritmo Marr-Hildreth para determinar 
o valor de n. Ou seja, uma máscara de filtragem gerada 
pela amostragem da Equação 10.2-29, de modo que n seja 
o menor inteiro ímpar maior ou igual a 60 que forneça 
essencialmente a capacidade de suavização “total” do fil- 
tro gaussiano. Se, por considerações de ordem prática, for 
necessária uma máscara de filtro menor, então o tradeoff 
suaviza menos para menores valores de n. 


Alguns comentários finais sobre a implementação: 
como observado anteriormente na discussão do detector 
de borda de Marr-Hildreth, a função gaussiana 2-D des- 
crita na Equação 10.2-29 é decomposta no produto de duas 
gaussianas 1-D. Assim, a Etapa 1 do algoritmo de Canny 
pode ser formulada como convoluções 1-D que operam 
nas linhas (colunas) de uma imagem, uma a cada vez, e 
depois trabalham nas colunas (linhas) do resultado. Além 
disso, se usarmos as aproximações das equações 10.2-12 
e 10.2-13, também poderemos executar os cálculos do 
gradiente necessários para a Etapa 2 como convoluções 
1-D (Exercício 10.20). 


Exemplo 10.8 Ilustração do método de detecção de 


bordas de Canny. 

A Figura 10.25(a) mostra a imagem do prédio já co- 
nhecida. Para fins de comparação, as figuras 10.25(b) e (c) 
mostram, respectivamente, os resultados obtidos antes tal 
como apresentado na Figura 10.20(b), utilizando o gradien- 
te após a limiarização e a Figura 10.22(d), utilizando o de- 
tector de Marr-Hildreth. Lembre-se de que os parâmetros 
utilizados na geração dessas duas imagens foram seleciona- 
dos para detectar as bordas principais em uma tentativa de 


Figura 10.25 


(a) Imagem original (834 x 1.114 pixels) com valores de 
intensidade ajustados para o intervalo [0, 1]. (b) Gradiente limiarizado da 
imagem suavizada. (c) Inagem obtida utilizando o algoritmo de Marr-Hil- 
dreth. (d) Imagem obtida utilizando o algoritmo de Canny. Repare na me- 
lhora significativa da imagem de Canny em comparação às outras duas. 


reduzir as características “irrelevantes”, como as bordas dos 
tijolos e das telhas. 


A Figura 10.25(d) mostra o resultado obtido com o al- 
goritmo de Canny usando os parâmetros T, = 0,04, T, = 0,10 
(2,5 vezes o valor do limiar inferior), o = 4 e uma máscara 
de tamanho 25 x 25, que corresponde ao menor número in- 
teiro ímpar superior a 60. Esses parâmetros foram escolhidos 
de forma interativa para atingir os objetivos enunciados no 
parágrafo anterior para o gradiente e para as imagens Marr- 
-Hildreth. Comparando a imagem de Canny com as outras 
duas imagens, vemos melhorias significativas no detalhe das 
bordas principais e, ao mesmo tempo, maior rejeição das ca- 
racterísticas irrelevantes no resultado de Canny.” 


Observe, por exemplo, que ambos os lados da linha 
de concreto que une os tijolos na parte superior da imagem 
foram detectados pelo algoritmo de Canny, enquanto o gra- 
diente limiarizado perdeu ambas as bordas e a imagem de 
Marr-Hildreth contém apenas a borda superior. Em termos 
de filtragem de detalhes irrelevantes, a imagem de Canny 
não contém uma única borda das telhas, o que não acontece 
nas outras duas imagens. A qualidade das linhas em relação 
à continuidade, espessura e linearidade também é superior 
na imagem obtida pelo método proposto por Canny. Resul- 
tados como esses têm feito do algoritmo de Canny a ferra- 
menta ideal para a detecção de bordas. 

E 


* Os valores do limiar aqui devem ser considerados apenas em 
termos relativos. A execução da maioria dos algoritmos envolve 
várias etapas de ajuste, como o ajuste do intervalo de valores da 
imagem de entrada para o intervalo [0, 1]. Diferentes esquemas 
de ajuste obviamente requerem diferentes valores de limiares da- 
queles utilizados neste exemplo. 
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a 

Exemplo 10.9 Outra ilustração dos três principais 
métodos de detecção de borda 
discutidos nesta seção. 


Como comparação adicional dos três principais méto- 
dos de detecção de bordas discutidos nesta seção, considere 
a Figura 10.26(a) que mostra uma tomografia computado- 
rizada (512 “ 512 pixels) do crânio. Nosso objetivo neste 
exemplo é extrair as bordas do contorno externo do cérebro 
(a região cinza na imagem), o contorno da região da coluna 
vertebral (mostrado diretamente atrás do nariz, em direção 
à frente do cérebro), e do contorno exterior da cabeça. Que- 
remos gerar os contornos mais contínuos e finos possíveis, 
eliminando os detalhes de borda relacionados aos conteúdos 
cinza nos olhos e nas áreas do cérebro. 


A Figura 10.26(b) mostra uma imagem gradiente li- 
miarizada que foi suavizada primeiro com um filtro de 
média 5 x 5. O limiar necessário para alcançar o resultado 
exibido foi de 15% do pixel de maior valor da imagem gra- 
diente. A Figura 10.26(c) mostra o resultado obtido com o 
algoritmo de detecção de borda de Marr-Hildreth com um 
limiar de 0,002, o = 3 e uma máscara de tamanho 19 x 19 
pixels. A Figura 10.26(d) foi obtida utilizando o algoritmo 
de Canny com T, = 0,05, T, = 0,15 (três vezes o valor do 
limiar inferior), o = 2 e uma máscara de tamanho 13 x 13, 
que, como no caso de Marr-Hildreth, corresponde ao menor 
inteiro ímpar maior do que 60. 


a 


Figura 10.26 
computadorizada (CT) de cabeça com valores de intensidade ajusta- 
dos para o intervalo [0, 1]. (b) Gradiente limiarizado da imagem sua- 
vizada. (c) Inagem obtida utilizando o algoritmo de Marr-Hildreth. (d) 
Imagem obtida utilizando o algoritmo de Canny. (Imagem original: cor- 
tesia do Dr. David R. Pickens, Universidade de Vanderbilt.) 


(a) Imagem original 512 x 512 de uma tomografia 
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Os resultados da Figura 10.26 correspondem estrei- 
tamente aos resultados e conclusões do exemplo anterior 
em termos de qualidade da borda e capacidade de eliminar 
os detalhes irrelevantes. Veja também que o algoritmo de 
Canny foi o único procedimento capaz de produzir uma bor- 
da totalmente contínua na fronteira posterior do cérebro. 
Foi também o único procedimento capaz de encontrar os 
melhores contornos e eliminar todas as bordas associadas à 
matéria cinzenta encontrada na imagem original. 

= 


Como seria de esperar, o preço pago pela melhoria 
do desempenho do algoritmo de Canny é uma aplicação 
mais complexa do que as duas abordagens discutidas an- 
teriormente e que também exige mais tempo de execu- 
ção. Em algumas aplicações, como o processamento de 
imagem industrial em tempo real, os custos e os requisitos 
de velocidade geralmente obrigam ao uso de técnicas mais 
simples, principalmente a abordagem do gradiente limia- 
rizado. Quando a qualidade da borda é o motivo principal, 
os algoritmos de Marr-Hildreth e de Canny, especialmente 
este último, oferecem alternativas de qualidade superior. 


10.2.7 Ligação de bordas e detecção de fronteiras 


Idealmente, a detecção de bordas deve produzir 
conjuntos de pixels que estão exclusivamente nas bordas. 
Na prática, esses pixels raramente caracterizam comple- 
tamente as bordas por causa do ruído, quebras nas bordas 
em virtude da iluminação não uniforme e outros efeitos 
que introduzem descontinuidades espúrias nos valores 
de intensidade. Portanto, a detecção de bordas normal- 
mente é seguida por algoritmos de ligação projetados 
para montar os pixels de borda nas bordas significativas 
e/ou nas regiões de fronteira. Nesta seção, discutem-se 
três abordagens fundamentais à ligação de bordas que são 
representativas das técnicas utilizadas na prática. 


A primeira exige conhecimento sobre os pontos da 
borda em uma região local (por exemplo, uma vizinhança 
3 x 3), a segunda requer que os pontos na fronteira de uma 
região sejam conhecidos e a terceira é uma abordagem glo- 
bal que trabalha com uma imagem de borda inteira. 


Processamento local 


Uma das abordagens mais simples para ligar os pon- 
tos da borda é analisar as características dos pixels em 
uma vizinhança pequena sobre cada ponto (x, y) declara- 
dos como ponto de borda por uma das técnicas discutidas 
na seção anterior. Todos os pontos que são semelhantes 
de acordo aos critérios predefinidos estão ligados, for- 
mando uma borda de pixels que apresentam proprieda- 
des comuns de acordo aos critérios estabelecidos. 


As duas propriedades principais utilizadas para es- 
tabelecer a similaridade dos pixels de borda neste tipo 
de análise são: (1) a força (magnitude) e (2) a direção 
do vetor gradiente. A primeira propriedade baseia-se na 
Equação 10.2-10. Digamos que S, defina o conjunto de 
coordenadas de uma vizinhança centrada no ponto (x, y) 
de uma imagem. Um pixel de borda com coordenadas (s, t) 
em 5, é similar em magnitude ao pixel em (x, y) se 


IM(s, t) - M(x, y)| < E (10.2-36) 


em que E é um limiar positivo. 


O ângulo da direção do vetor gradiente é dado pela 
Equação 10.2-11. Um pixel de borda com coordenadas 
(s, t) em S, tem um ângulo similar em magnitude ao pixel 
em (x, y) se 


la(s, -a(x, y)| <A (10.2-37) 


na qual 4 é um limiar de ângulo positivo. Conforme des- 
crito na Seção 10.2.5, a direção da borda em (x, y) é per- 
pendicular à direção do vetor gradiente naquele ponto. 


Um pixel com coordenadas (s, t) em Sy está ligado 
ao pixel (x, y) se tanto os critérios de magnitude quanto 
os de direção forem cumpridos. Este processo é repetido 
em cada ponto da imagem. Um registro dos pontos liga- 
dos deve ser mantido conforme o centro da vizinhança é 
movido de pixel em pixel. Um procedimento simples de 
registro é atribuir um diferente valor de intensidade para 
cada conjunto de pixels de borda ligados. 


A formulação anterior é computacionalmente cara, 
pois todos os pixels vizinhos de cada ponto têm de ser 
examinados. Uma simplificação especialmente adequada 
para as aplicações em tempo real conta com as seguintes 
etapas: 


1. Calcule a magnitude do gradiente e os arranjos do 
ângulo, M(x, y) e (x, y), da imagem de entrada, f(x, y). 

2. Forme uma imagem binária, q, cujo valor em qual- 
quer par de coordenadas (x, y) é dado por: 


T 
Lael 


1 se M(x,y)>T,, Eo(x,y)= A+ 


g(x,y) = a 
(0) caso contrário 


na qual T, é um limiar, A é a direção angular espe- 
cificada e + T, define uma “faixa” de direções acei- 
táveis ao redor de 4. 


3. Percorra as linhas de g e preencha (marque como 1) 
todas as falhas (conjuntos de 0s) em cada linha que 
não excedam um tamanho estabelecido, K. Note-se 
que, por definição, uma falha é delimitada em am- 
bas as extremidades por um ou mais 1s. As linhas 


são processadas individualmente, sem memória en- 
tre elas. 


4. Para detectar as falhas em qualquer outra direção, 0, 
gire g por este ângulo e aplique o procedimento de var- 
redura horizontal descrito na Etapa 3. Gire o resultado 
novamente por —9 para voltar à inclinação original. 


Quando o interesse reside na ligação de borda ho- 
rizontal e vertical, a Etapa 4 torna-se um procedimento 
simples em que g é girada a 90º, faz-se uma varredura nas 
linhas e o resultado é rotacionado para a direção original. 
Esta é a aplicação mais frequentemente encontrada na 
prática e, como mostra o exemplo a seguir, pode render 
bons resultados. Em geral, a rotação da imagem é um 
processo computacionalmente caro e, por isso, quando é 
necessário fazer a ligação em diferentes direções angula- 
res, é mais prático combinar as etapas 3 e 4 em um único 
procedimento de varredura radial. 


E 
Exemplo 10.10 Ligação de bordas usando o 
processamento local. 


A Figura 10.27(a) mostra uma imagem da traseira de 
um veículo. O objetivo deste exemplo é ilustrar o uso do al- 
goritmo anterior para encontrar retângulos cujos tamanhos 
façam deles candidatos adequados para serem placas de veí- 
culo. A formação desses retângulos pode ser realizada por 
meio da detecção de bordas fortes horizontais e verticais. A 
Figura 10.27(b) mostra a imagem de magnitude do gradien- 
te, M(x, y), e as figuras 10.27(c) e (d) mostram o resultado 
das etapas (3) e (4) do algoritmo obtido, fazendo com que 
T, seja igual a 30% do valor máximo do gradiente, A = 90°, 


Figura 10.27 


(a) Uma imagem 534 x 566 da traseira de um veículo. 
(b) Inagem da magnitude do gradiente. (c) Pixels de borda vinculados 
horizontalmente. (d) Pixels de borda vinculados verticalmente. (e) A 
lógica tipo OU (or) das duas imagens anteriores. (f) Resultado final 
obtido usando o afinamento morfológico. (Imagem original: cortesia 
do Perceptics Corporation.) 
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T, = 45º, e preenchendo todas as falhas de 25 pixels ou 
menos (aproximadamente 5% da largura da imagem). A 
utilização de uma ampla gama de direções angulares ad- 
missíveis era necessária para detectar os cantos arredonda- 
dos do compartimento da placa do veículo, bem como das 
janelas traseiras do veículo. A Figura 10.27(e) é o resul- 
tado da lógica OU das duas imagens anteriores e a Figura 
10.27 (f) foi obtida afinando 10.27(e) com o procedimento 
de afinamento discutido na Seção 9.5.5. Conforme mostra 
a Figura 10.16(f), o retângulo correspondente à placa foi 
claramente detectado na imagem. Seria uma simples ques- 
tão de isolar a placa de todos os retângulos da imagem uti- 
lizando o fato de que a razão entre a largura e a altura das 
placas dos veículos nos Estados Unidos tem uma proporção 
peculiar de 2:1. 

a 


Processamento regional 


Muitas vezes, as localizações das regiões de interesse 
em uma imagem são conhecidas ou podem ser determi- 
nadas. Isto implica que está disponível um conhecimento 
da pertinência regional dos pixels na imagem da borda 
correspondente. Nessas situações, podemos usar técnicas 
para ligar pixels em uma base regional, sendo que o re- 
sultado desejado é uma aproximação para a fronteira da 
região. Uma abordagem deste tipo de processamento é 
a aproximação funcional, em que ajustamos uma curva 
2-D em função dos pontos conhecidos. Normalmente, o 
interesse está nas técnicas de execução rápida que pro- 
duzam uma aproximação às características essenciais da 
fronteira, como os pontos extremos e as concavidades. 
As aproximações poligonais são particularmente atraen- 
tes, pois podem capturar as características essenciais do 
formato de uma região mantendo a representação da 
fronteira (ou seja, os vértices do polígono) relativamente 
simples. Nesta seção, desenvolvemos e ilustramos um al- 
goritmo apropriado para esta finalidade. 


Antes de começar o algoritmo, discutimos a me- 
cânica do processo por meio de um exemplo simples. A 
Figura 10.28 mostra um conjunto de pontos que repre- 
sentam uma curva aberta em que os pontos finais foram 
denominados como 4 e B. Estes dois pontos são, por de- 
finição, vértices do polígono. 


Começamos pelo cálculo dos parâmetros de uma 
linha que passa pelos pontos 4 e B. Em seguida, calcu- 
lamos a distância perpendicular de todos os outros pon- 
tos da curva até esta linha e selecionamos o ponto que 
produziu a maior distância (os empates são resolvidos 
arbitrariamente). Se esta distância for superior ao limiar 
fixado, T, o ponto correspondente, marcado com C, é de- 
clarado um vértice como apresentado na Figura 10.28(a). 
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Figura 10.28 


Ilustração do algoritmo de aproximação poligonal iterativa. 


Os segmentos de reta de A para Ce de Cpara B sao, então, 
traçados e as distâncias de todos os pontos entre A e C 
até o segmento de reta AC são obtidos. O ponto corres- 
pondente à distância máxima é declarado como vértice, 
D, se a distância for superior a T; caso contrário, não se 
declaram novos vértices para esse segmento. Um proce- 
dimento semelhante é aplicado entre os pontos Ce B. A 
Figura 10.28(b) mostra o resultado e a Figura 10.28(c) 
mostra 0 próximo passo. Este processo iterativo continua 
até que nenhum ponto satisfaça o teste do limiar. A Figu- 
ra 10.28(d) mostra o resultado final que, como você pode 
ver, é uma aproximação razoável ao formato de uma cur- 
va cobrindo os pontos dados. 


Dois requisitos importantes estão implícitos no pro- 
cesso que acabamos de ver. Em primeiro lugar, dois pon- 
tos de partida devem ser estabelecidos; em segundo lugar, 
todos os pontos devem ser ordenados (por exemplo, no 
sentido horário ou anti-horário). Quando um conjunto 
arbitrário de pontos 2-D não forma um caminho conexo 
(como é tipicamente o caso das bordas de imagens), nem 
sempre é óbvio que os pontos pertençam a um segmento 
de uma fronteira (curva aberta) ou à uma fronteira (cur- 
va fechada). Dado que os pontos estão ordenados, pode- 
mos inferir se estamos lidando com uma curva aberta ou 
fechada por meio da análise das distâncias entre pontos. 
Uma distância grande entre dois pontos consecutivos na 
sequência ordenada em relação à distância entre outros 
pontos conforme percorremos a sequência de pontos é 
uma boa indicação de que a curva é aberta. Os pontos 
finais são então utilizados para iniciar o procedimento. Se 


a separação entre os pontos tende a ser uniforme, então 
provavelmente estamos lidando com uma curva fechada. 
Neste caso, temos várias opções para selecionar os dois 
pontos de partida. Uma forma é escolher os pontos mais 
à direita e à esquerda do conjunto. Outra é encontrar os 
pontos extremos da curva (discutiremos uma maneira de 
fazer isso na Seção 11.2.1). Um algoritmo para encontrar 
um ajuste poligonal para curvas abertas e fechadas pode 
ser apresentado da seguinte forma: 


1. Digamos que P seja uma sequência de pontos or- 
denados, distintos, de valor 1 em uma imagem bi- 
nária. Especificamos dois pontos de partida, A e B. 
Estes são os dois vértices iniciais do polígono.” 


2. Estabelecemos um limiar, T, e duas pilhas vazias, 
ABERTA e FECHADA. 


3. Se os pontos em P correspondem a uma curva fe- 
chada, colocamos A em ABERTA e B em ABERTA e 
em FECHADA. Se os pontos correspondem a uma 
curva aberta, colocamos 4 em ABERTA e B em FE- 
CHADA. 


4. Calculamos os parâmetros da reta que passa pelo 
último vértice em FECHADA e pelo último vértice 
em ABERTA. 


5. Calculamos as distâncias em relação a reta calculada 
na Etapa 4 para todos os pontos em P cuja sequên- 
cia os coloca entre os vértices da Etapa 4. Seleciona- 
mos o ponto, V ., com a distância maxima, D . (os 
empates são resolvidos arbitrariamente). 

6. Se Daa > T, pomos V . no final da pilha ABERTA 
como um novo vértice. Vá para a Etapa 4. 


7. Se não, remova o último vértice de ABERTA e o 
insira como o último vértice de FECHADA. 


Se ABERTA não estiver vazia, vamos para a Etapa 4. 


9. Caso contrário, saímos. Os vértices em FECHADA 
são os vértices do ajuste poligonal dos pontos per- 
tencentes a P. 


A mecânica do algoritmo é ilustrada nos dois exem- 
plos a seguir. 


Exemplo 10.11 Ligação de borda usando uma 


aproximação poligonal. 

Considere o conjunto de pontos, P, na Figura 10.29(a). 
Suponhamos que esses pontos pertencem a uma curva fe- 
chada, que eles estão ordenados no sentido horário (note 
que alguns pontos não são adjacentes) e que 4 e B são se- 
lecionadas para serem os pontos mais à esquerda e à direita 


* Consulte a Seção 11.1.1 para um algoritmo que cria sequências 
ordenadas de pontos. 
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Figura 10.29 (a) Um conjunto de pontos no sentido horário (os pontos indicados como A e B foram escolhidos como os vértices iniciais). (b) 
A distância entre o ponto Ce a reta que passa por A e B, além de ser a maior dentre as distâncias apresentadas por todos os pontos entre A e 


Bem relação à reta, também passou no teste de limiar, então C é um novo vértice. (d) a (g) diversas etapas do algoritmo. (h) Os vértices finais, 
mostrados em conexão com linhas retas para formar um polígono. A Tabela 10.1 mostra os detalhes passo a passo. 


de P, respectivamente. Estes são os vértices de partida, como 
mostra a Tabela 10.1. Selecione o primeiro ponto na sequên- 
cia como o ponto mais à esquerda, A. a Figura 10.29(b) mos- 
tra o único ponto (identificado como C) no segmento de cur- 
va superior entre 4 e B, o que satisfez a Etapa 6 do algoritmo 
e, por isso, é designado como um novo vértice e adicionado 
aos vértices na pilha ABERTA. A segunda linha da Tabela 
10.1 mostra C sendo detectado e a terceira linha mostra que 
está sendo adicionado como último vértice em ABERTA. O 
limiar, T, na Figura 10.29(b), é quase igual a 1,5 subdivisão 
da grade da figura. 


Observe, na Figura 10.29(b), que há um ponto abaixo 
da linha AB, que também satisfaz a Etapa 6. No entanto, já 
que os pontos estão ordenados, apenas um subconjunto dos 
pontos entre estes dois vértices é detectado a cada vez. O 
outro ponto no segmento inferior será detectado mais tarde, 
como mostra a Figura 10.29(e). A estratégia é sempre seguir 
os pontos na ordem em que são dados. 


Tabela 10.1 Detalhes passo a passo do procedimento apresentado 
no Exemplo 10.11. 
Segmento de Vértice 
FECHADA | ABERTA | curva processado | gerado 
B BA - A, B 

B BA (BA) C 
B BAC (BC) - 
BC BA (CA) = 
BCA B (AB) D 
BCA B, D (AD) = 
BC A, D B (DB) - 
BCADB| Vazio = = 


A Tabela 10.1 mostra as etapas que levaram à solu- 
ção apresentada na Figura 10.29(h). Quatro vértices foram 
detectados e a figura os mostra conectados com segmentos 
de reta para formar um polígono e aproximar os pontos da 
fronteira. Repare que, na tabela, os vértices detectados, B, 
C, A, D, B estão no sentido anti-horário, embora os pontos 
fossem seguidos no sentido horário para gerar os vértices. Se 
a entrada tivesse sido uma curva aberta, os vértices estariam 
no sentido horário. A razão para a discrepância é a maneira 
como as pilhas ABERTA e FECHADA foram inicializadas. A 
diferença na qual a pilha FECHADA é formada por curvas fe- 
chadas e abertas também leva ao primeiro e ao último vértice 
em uma curva fechada que se repete. Isso é consistente com 
a forma como se poderia estabelecer a diferença entre os po- 
lígonos abertos e fechados conhecendo somente os vértices. 

a 


= 
Exemplo 10.12 Aproximação poligonal de uma fronteira 
de imagem. 


A Figura 10.30 mostra um exemplo mais prático do ajus- 
te (aproximação) poligonal. A imagem de entrada na Figura 
10.30(a) é uma imagem de raios X de tamanho 550 x 566 
de um dente humano com intensidades ajustadas para o in- 
tervalo [0, 1]. O objetivo deste exemplo é extrair a fronteira 
dos dentes, um processo útil em áreas como a correspon- 
dência com um banco de dados para fins forenses. A Figura 
10.30(b) é uma imagem gradiente obtida usando as másca- 
ras de Sobel e com um limiar T estabelecido igual a 0,1 (10% 
da intensidade máxima). Como esperado para uma imagem 
de raios X, o ruído é alto; então, o primeiro passo é sua redu- 
ção. Já que a imagem é binária, as técnicas morfológicas são 
adequadas para esta finalidade. A Figura 10.30(c) mostra o 
resultado da filtragem de maioria, que define um pixel como 
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bp 


Figura 10.30 


(a) Imagem original de raios X (550 x 566 pixels) de um dente humano. (b) Imagem gradiente. (c) Resultado majority filtering. (d) 


Resultado do afinamento morfológico. (e) Resultado de limpeza morfológica. (f) Esqueletização. (g) Redução de esporões. (h) a (j) Aproximação 
poligonal utilizando limiares de aproximadamente 0,5%, 1% e 2% da largura da imagem (7 = 3, 6 e 12). (k) Fronteira em (j) suavizada com um 
filtro de média 1-D de tamanho 1 x 31 (aproximadamente 5% da largura da imagem). (|) Fronteira em (h) suavizada com o mesmo filtro. 


sendo 1 se cinco ou mais pixels na sua vizinhança de 3 x 3 
são 1 e define o pixel como 0 caso ocorra o oposto. Embora 
o ruído tenha sido reduzido, alguns pontos de ruído ainda 
são bem visíveis. A Figura 10.30(d) mostra o resultado do 
afinamento morfológico, que reduziu ainda mais os pontos 
de ruído isolados. Estes foram eliminados (Figura 10.30(e)), 
usando a filtragem morfológica da forma descrita no Exem- 
plo 9.4. Neste ponto, a imagem é constituída por fronteiras 
espessas que podem ser afinadas obtendo o esqueleto mor- 
fológico, como a Figura 10.30(f) mostra. Finalmente, a Fi- 
gura 10.30(g) mostra a última etapa no pré-processamento 
utilizando a redução de componentes parasitas (espúrios), 
como discutido na Seção 9.5.8. 


Em seguida, aproximamos os pontos na Figura 
10.30(g) para um polígono. As figuras 10.30(h) a (j) mos- 
tram o resultado do uso do algoritmo de aproximação po- 
ligonal com limiares iguais a 0,5%, 1% e 2% da largura da 
imagem (com valores de T = 3, 6 e 12). Os dois primeiros 
resultados são boas aproximações para a fronteira, mas o 
terceiro é ruim. O excessivo efeito de serrilhamento (jag- 
gies) em todos os três casos indica claramente que é neces- 
sária a suavização das fronteiras. 


As figuras 10.30(k) e (1) mostram o resultado da con- 
volução de um filtro de média 1-D com as fronteiras em j e 
h, respectivamente. Foi utilizado como filtro um arranjo de 
1 x 31 de Is, correspondente a aproximadamente 5% da 
largura da imagem. Como esperado, o resultado na Figura 
10.30(k) novamente é ruim em termos da preservação de 
importantes características de forma (por exemplo, o lado 
direito está severamente distorcido). Por outro lado, o resul- 
tado na Figura 10.30(1) mostra uma suavização significati- 
va da fronteira e preservação razoável das características de 
forma. Por exemplo, o arredondamento do limite superior 
esquerdo e os detalhes do limite superior direito foram pre- 
servados com fidelidade razoável. 

E 


Os resultados obtidos no exemplo anterior são típi- 
cos do que pode ser alcançado com o algoritmo de apro- 
ximação poligonal discutido nesta seção. A vantagem 
deste algoritmo é que ele é fácil de implementar e produz 
resultados que, geralmente, são bastante aceitáveis. Na 
Seção 11.1.3, discutiremos um procedimento mais sofis- 
ticado capaz de render ajustes mais próximos calculando 
os polígonos de perímetro mínimo. 


Transformação global usando a transformada 
de Hough 


Os métodos discutidos nas duas seções anteriores 
são aplicáveis em situações em que o conhecimento so- 
bre os pixels pertencentes a objetos individuais encon- 
tra-se parcialmente disponível. Por exemplo, na trans- 
formação regional, faz sentido vincular um determinado 
conjunto de pixels somente se soubermos que eles são 
parte da fronteira de uma região significativa. Muitas ve- 
zes temos de trabalhar com ambientes não estruturados 
em que tudo o que temos é uma imagem da borda e não 
sabemos nada sobre onde possam estar os objetos de in- 
teresse. Nessas situações, todos os pixels são candidatos 
para a ligação e, portanto, têm de ser aceitos ou elimi- 
nados com base em propriedades globais predefinidas. 
Nesta seção, desenvolveremos uma abordagem baseada 
no fato de os conjuntos de pixels estarem ou não nas 
curvas de um formato estabelecido. Uma vez detectadas, 
essas curvas formam as bordas ou fronteiras da região 
de interesse. 


Tendo n pontos em uma imagem, suponhamos que 
queremos encontrar subconjuntos desses pontos que per- 
tençam às linhas retas (retas). Uma possível solução é en- 
contrar primeiro todas as retas determinadas por cada par 
de pontos e, em seguida, encontrar todos os subconjuntos 
de pontos que estejam próximos a essas retas em particu- 
lar. Esta metodologia envolve encontrar n(n — 1)/2 ~ n? 
retas e executar (n)(n(n — 1)) 2 ~ n3 comparações de pon- 
tos para todas as retas. Esta é uma tarefa computacional- 
mente proibitiva em todas as aplicações, menos naquelas 
mais triviais. 

Hough (1962) propôs uma abordagem alternativa, 
comumente chamada de transformada de Hough. Conside- 
re um ponto (x, y) no plano xy e a equação geral de uma 
reta na forma inclinação-interseção, y, = ax, + b. Infini- 
tamente muitas retas passam por (x, y,), mas todas elas 
satisfazem a equação y, = ax, + b para diferentes valores 
de a e b. Entretanto, escrever esta equação como b = —xa 
+ y, e considerando o plano ab (também chamado espaço 
de parâmetros) produz a equação de uma única reta para 
um par fixo (x, y,). Além disso, um segundo ponto (x, y,) 
também tem uma reta no espaço de parâmetros associada 
a ele e, a não ser que sejam paralelos, esta reta cruza a 
reta associada à (x, y) em algum ponto (a”, b’), em que 
a’ é a inclinação e b’ é a interseção da reta contendo tanto 
(x, y) quanto (x, y,) no plano xy. Na verdade, todos os pon- 
tos nesta reta pertencem a retas no espaço de parâmetros 
que se cruzam em (a”, b'). A Figura 10.31 ilustra os con- 
ceitos anteriores. 
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Figura 10.31 (a) Plano xy. (b) Espaço de parâmetros. 


Em principio, as retas do espaco de parametros que 
corresponda a todos os pontos (x, y,) no plano xy podem 
ser traçadas e as retas principais nesse plano poderiam ser 
determinadas identificando os pontos no espaço de pa- 
râmetros nos quais uma grande quantidade de retas do 
espaço de parâmetros se intercepta. Uma dificuldade 
prática com essa abordagem, porém, é que a (inclinação 
de uma reta) se aproxima do infinito conforme a reta se 
aproxima da direção (inclinação) vertical. Uma maneira 
de contornar essa dificuldade é utilizar a representação 
normal de uma reta (em coordenadas polares): 


xcosb+ysend=p (10.2-38) 


A Figura 10.32(a) ilustra a interpretação geométrica dos 
parâmetros p e 0. Uma reta horizontal tem 6 = 0º, com 
p igual à interseção positiva de x. Da mesma forma, uma 
reta vertical que tem 9 = 90º, com p sendo igual a inter- 
seção positiva y, ou 0 = -90º, com p igual à interseção y 
negativa. Cada curva senoidal na Figura 10.32(b) repre- 
senta a família de retas que passam por um determinado 
ponto (x, y,) no plano xy. O ponto de interseção (p',0') na 
Figura 10.32(b) corresponde à reta que passa tanto por 
(x, Y) quanto por (x, y) na Figura 10.32(a). 

A atratividade computacional da transformada de 
Hough surge da subdivisão do espaço de parâmetros p0 
nas chamadas células acumuladoras, como a Figura 10.32(c) 
ilustra, sendo que (Pae Pins.) © (Onn Omax) SÃO OS esperados 
intervalos de valores dos parâmetros: -90º < 0 < 90º e 
-D < p < D, em que D é a distância maxima entre os can- 
tos opostos de uma imagem. A célula nas coordenadas 
(i, j), com um valor de acumulador A(i, j), corresponde ao 
quadrado associado às coordenadas do espaço de parâme- 
tros (p, 9). Inicialmente, essas células são definidas como 
zero. Então, para cada ponto (x,, y,) do plano xy, deixa- 
mos que 6 seja igual a cada valor de subdivisão permitido 
no eixo 0 e calculamos o p correspondente utilizando a 
equação p = x, cos) + y, send. Os valores p resultantes 
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Figura 10.32 (a) (p, 0) Parametrização da reta no plano xy. (b) Curvas senoidais no plano pô; o ponto de interseção (p’, 0") corresponde à reta 


que passa pelos pontos (x, y) e (x, y) no plano xy. (c) Divisão do plano p0 em células acumuladoras. 


são arredondados para o valor de célula permitida mais 
próximo no eixo p. Se a escolha de 6 resultar em p, então 
teremos A(p, q) = A(p, q) + 1. No final deste processo, um 
valor de P em A(i, j) significa que os pontos P no plano 
xy encontram-se na reta xcosó, + ysend; = p, O numero 
de subdivisões no plano pf determina a precisão da coli- 
nearidade desses pontos. Pode ser demonstrado (Exercício 
10.24) que o número de cálculos no método que acaba- 
mos de discutir é linear com relação a n, que é o número 
de pontos que não pertencem ao fundo no plano xy. 


E 
Exemplo 10.13 Uma ilustração das propriedades 
básicas da transformada de Hough. 


A Figura 10.33 ilustra a transformada de Hough ba- 
seada na Equação 10.2-38. A Figura 10.33(a) mostra uma 
imagem (101 x 101 pixels) com cinco pontos rotulados e a 
Figura 10.33(b) mostra cada um desses pontos mapeados no 
plano p0 com subdivisões de uma unidade para os eixos p e 
0. O eixo 0 varia de +90º e o eixo pô de +2D, em que Déa 
distância entre os cantos da imagem. Conforme mostra a Fi- 
gura 10.33(b), cada curva tem um formato senoidal diferen- 
te. A linha horizontal resultante do mapeamento do ponto 
1 é um caso especial de uma senoidal com amplitude zero. 


Os pontos rotulados com A (para não ser confundi- 
dos com os valores do acumulador) e B na Figura 10.33(b) 
apresentam a propriedade de detecção de colinearidade da 
transformada de Hough. 


O ponto A indica a interseção das curvas correspon- 
dentes aos pontos 1, 3 e 5 no plano da imagem xy. A posição 
do ponto A indica que esses três pontos estão em uma reta 
que passa pela origem (p = 0) e com inclinação de 45º (ver 
Figura 10.32(a)). Da mesma forma, as curvas que se cruzam 
no ponto B do espaço de parâmetros indicam que os pontos 
2,3 e 4 pertencem a uma linha reta orientada a -45° e cuja 
distância da origem é p = 71 (metade da distância da diago- 
nal da origem da imagem até seu canto oposto, arredondado 
para o valor inteiro mais próximo). Finalmente, os pontos 
rotulados Q, R, e S na Figura 10.33(b) ilustram o fato de que 


a transformada de Hough exibe uma relação de adjacência 
reflexiva nas bordas direita e esquerda do espaço de parâ- 
metros. Esta propriedade é o resultado da maneira em que 0 
e p mudam de sinal à +90º da fronteira. 

E 


Embora o foco até o momento tenha sido nas linhas 
retas, a transformada de Hough é aplicável a qualquer 
função da forma g(v, c) = 0, na qual v é um vetor de 
coordenadas e c é um vetor de coeficientes. Por exemplo, 
pontos situados na circunferência 


100 


Figura 10.33 (a) Imagem com 101 x 101 pixels, contendo cinco 
pontos. (b) Espaço de parâmetros correspondente. (Os pontos em (a) 
foram ampliados para que fossem mais fáceis de visualizar). 


Cae (10.2-39) 


podem ser detectados usando o método básico discu- 
tido anteriormente. A diferença é a presença de três 
parâmetros (c, c, e c,), 0 que resulta em um espaço 
de parâmetros 3-D com células em formato de cubo 
e acumuladores da forma A (i, j, k). O procedimento 
é incrementar c, e c, para então calcular c,, que satis- 
faz a Equação 10.2-39 e atualizar a célula acumuladora 
associada ao trio (c, c, c,). Claramente, a complexida- 
de da transformada de Hough depende do número de 
coordenadas e coeficientes da representação funcional. 
Outras generalizações da transformada de Hough para 
detectar curvas sem nenhuma representação analítica 
simples são possíveis, como a aplicação da transforma- 
da nas imagens em tons de cinza. Várias referências 
que abordam essas extensões são incluídas no final 
deste capítulo. 

Voltemos agora ao problema da vinculação de bor- 
das. Uma abordagem baseada na transformada de Hough 
é a seguinte: 

1. Obter uma imagem de borda binária usando qual- 
quer uma das técnicas discutidas anteriormente 
nesta seção. 


2. Especificar as subdivisões no plano pó. 
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3. Examinar a contagem das células acumuladoras 
para as concentrações elevadas de pixels. 


4. Examinar a relação (principalmente as de continui- 
dade) entre os pixels de uma célula escolhida. 


A continuidade neste caso geralmente se baseia no cálcu- 
lo da distância entre pixels desconexos correspondentes 
a uma determinada célula acumuladora. A falha em uma 
reta associada a uma determinada célula é preenchida se 
o comprimento da falha for menor que o limiar estabe- 
lecido. Repare que o simples fato de ser capaz de agrupar 
linhas a partir da direção é um conceito global aplicável 
em toda a imagem, sendo necessário apenas examinar- 
mos os pixels associados às células acumuladoras especi- 
ficas. Esta é uma vantagem significativa sobre os métodos 
discutidos nas duas seções anteriores. O exemplo a seguir 
ilustra esses conceitos. 


= 
Exemplo 10.14 Utilizando a transformada de Hough 
para a ligação das bordas. 


A Figura 10.34(a) mostra uma imagem aérea de um 
aeroporto. O objetivo deste exemplo é usar a transforma- 
da de Hough para extrair as duas bordas da pista principal. 
Uma solução para tal problema pode ser do seu interesse, 
por exemplo, em aplicações que envolvam a navegação au- 
tônoma de veículos aéreos. 


Figura 10.34 


(a) Imagem aérea (502 x 564 pixels) de um aeroporto. (b) Imagem das bordas obtida utilizando o algoritmo de Canny. (c) Espaço 


de parâmetros de Hough (as caixas em destaque indicam os pontos relacionados com as linhas verticais longas). (d) As linhas no plano de imagem 
são correspondentes aos pontos destacados pelas caixas). (e) Linhas sobrepostas à imagem original. 
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O primeiro passo é obter uma imagem da borda. A 
Figura 10.34(b) mostra a imagem da borda obtida utilizando 
o algoritmo de Canny com os mesmos parâmetros e os pro- 
cedimentos usados no Exemplo 10.9. Para efeitos de cálculo 
da transformada de Hough, resultados similares podem ser 
obtidos por meio de qualquer uma das técnicas de detec- 
ção de borda tratadas nas seções 10.2.5 e 10.2.6. A Figura 
10.34(c) mostra o espaço de parâmetros de Hough obtido 
com incrementos de 1º para d e 1 pixel para p. 


A pista que nos interessa está orientada em aproxi- 
madamente 1º em relação à direção norte; por isso, sele- 
cionamos as células correspondentes a +90º e que tivessem 
a maior contagem, pois as pistas são as linhas mais longas 
orientadas nessas direções. As pequenas caixas brancas nas 
bordas da Figura 10.34(c) destacam essas células. Como 
mencionado anteriormente em conexão com a Figura 
10.33(b), a transformada de Hough mostra adjacência nas 
bordas. Outra maneira de interpretar essa propriedade é que 
uma linha orientada a +90° e uma linha orientada a -90° 
são equivalentes (ou seja, ambas são verticais). A Figura 
10.34(d) mostra as linhas correspondentes às duas células 
do acumulador discutidas recentemente e a Figura 10.34(e) 
mostra as linhas sobrepostas na imagem original. 


As linhas foram obtidas juntando todas as lacunas in- 
feriores a 20% da altura da imagem (cerca de 100 pixels). 
Essas linhas correspondem claramente às bordas da pista de 
interesse. 


Nota-se que o único conhecimento importante e ne- 
cessário para resolver este problema foi saber a orientação da 
pista e a posição do observador em relação a ela. Em outras 
palavras, um veículo autônomo saberia que, se a pista de in- 
teresse fica orientada ao norte e a direção do veículo de trans- 
porte também é o norte, a pista deve aparecer verticalmente 
na imagem. Outras orientações relativas são tratadas de ma- 
neira semelhante. As orientações das pistas de todo o mundo 
estão disponíveis nos gráficos de voo e a direção da viagem é 
facilmente obtida usando o GPS (global positioning system). Esta 
informação também pode ser usada para calcular a distância 
entre o veículo e a pista, permitindo, assim, estimativas de 
parâmetros como o comprimento esperado das faixas em re- 
lação ao tamanho da imagem, como fizemos neste exemplo. 

E 


10.3 Limiarização 


Em virtude de suas propriedades intuitivas, a sim- 
plicidade de implementação e a velocidade computacio- 
nal, a limiarização de imagens tem uma posição central 
nas aplicações de segmentação de imagem. A limiariza- 
ção foi introduzida na Seção 3.1.1 e a usamos em várias 
discussões desde então. Nesta seção, discutiremos a limia- 
rização de uma maneira mais formal e desenvolveremos 
técnicas que são consideravelmente mais gerais do que 
foi apresentado até agora. 


10.3.1 Fundamentos 


Na seção anterior, as regiões eram identificadas 
achando primeiro os segmentos de borda e, em seguida, 
tentando-se vincular os segmentos com as fronteiras. Nes- 
ta seção, discutem-se as técnicas de divisão de imagens di- 
retamente em regiões com base nos valores de intensidade 
e/ou as propriedades desses valores. 


As bases da limiarização de intensidade 


Suponha que o histograma de intensidade na Figu- 
ra 10.35(a) corresponda a uma imagem, f(x, y), composta 
por objetos claros sobre um fundo escuro de tal forma 
que os pixels do objeto e do fundo tenham valores de 
intensidade agrupados em dois grupos dominantes (mo- 
dos). Uma maneira óbvia de extrair os objetos do fundo 
é selecionar um limiar T, que separa estes modos. En- 
tão, qualquer ponto (x, y) na imagem em que f(x, y) > T 
é chamado de ponto do objeto; caso contrário, o ponto é 
chamado ponto de fundo. Em outras palavras, a imagem 
segmentada, g(x, y), é dada por 


1 se f(x,y) >T 


Be y)= 0 se f(x,y) <T 


(10.3-1) 
Embora sigamos a convenção de usar intensidade 0 para 
o fundo e 1 para o objeto, dois valores distintos quaisquer 
podem ser utilizados na Equação 10.3-1. 


Quando T é uma constante aplicável a uma imagem 
inteira, o processo dado nesta equação é conhecido como 
limiarização global. Quando o valor de T muda ao longo 
da imagem, usamos o termo limiarização variável. O termo 
limiarização local ou regional às vezes é usado para denotar 
a limiarização variável na qual o valor de T em qualquer 
ponto (x, y) em uma imagem depende das propriedades 
de uma vizinhança de (x, y) (por exemplo, a intensidade 
média dos pixels da vizinhança). 


Se T depende das coordenadas espaciais (x, y) como 
tal, então a limiarização variável muitas vezes é chama- 
da de limiarização dinâmica ou adaptativa. O uso desses 


a b 
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Figura 10.35 Histogramas de intensidade que podem ser divididos 
(a) por um limiar único e (b) por limiares duplos. 


termos não é universal e é provável vê-los sendo utili- 
zados indiferentemente na literatura de processamento 
de imagem. 


A Figura 10.35(b) mostra um problema mais difi- 
cil de limiarização envolvendo um histograma com três 
modos dominantes que correspondem, por exemplo, a 
dois tipos de objetos claros sobre um fundo escuro. Aqui 
a limiarização múltipla classifica um ponto (x, y) como per- 
tencente ao fundo se f(x, y) = T,, para uma classe de 
objeto se T, < f(x, y) < T, e para a classe de outro objeto 
se f(x, y) >T, 


Ou seja, a imagem segmentada é dada por 


a se fis, v>r, 
G(X, y)=4b se T, < f(x,y) <T, (103-2) 
c se f(x,y) ST, 


na qual a, be c são três valores quaisquer com diferentes 
níveis de intensidade. Discutiremos a limiarização dupla 
na Seção 10.3.6. Os problemas de segmentação que exi- 
gem mais do que dois limiares são difíceis (muitas vezes 
impossíveis) de resolver e os melhores resultados geral- 
mente são obtidos por meio de métodos como a limia- 
rização variável, como discutida na Seção 10.3.7, ou o 
aumento da região, como discutido na Seção 10.4. 


Com base na discussão anterior, podemos inferir 
que o sucesso da limiarização de intensidade está dire- 
tamente relacionado com a largura e profundidade do(s) 
vale(s) que separa(m) os modos do histograma. Por sua 
vez, os principais fatores que afetam as propriedades do(s) 


LALALA 
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vale(s) são: (1) a separação entre picos (quanto mais dis- 
tantes forem os picos entre si, melhores as possibilidades 
de separação dos modos); (2) o índice de ruído da ima- 
gem (os modos ampliam com o aumento do ruído); (3) 
o tamanho relativo dos objetos e do fundo; (4) a unifor- 
midade da fonte de iluminação; e (5) a uniformidade das 
propriedades de reflexão da imagem. 


O papel do ruído na limiarização de imagens 


Como ilustração de como o ruído afeta o histogra- 
ma de uma imagem, considere a Figura 10.36(a). Esta 
imagem simples e sintética não tem ruído e, por isso, 
seu histograma consiste em dois modos na forma de pi- 
cos (spikes), como mostra a Figura 10.36(d). Segmentar 
essa imagem em duas regiões é uma tarefa trivial envol- 
vendo um limiar estabelecido em qualquer lugar entre 
os dois modos. 


A Figura 10.36(b) mostra a imagem original cor- 
rompida pelo ruído gaussiano de média zero e desvio 
padrão de 10 níveis de intensidade. Embora os grupos 
correspondentes do histograma sejam amplos (Figura 
10.36(e)), sua separação é grande o bastante para que a 
profundidade do vale entre eles seja suficiente para tor- 
nar os modos mais fáceis de separar. Um limite colocado 
no meio do caminho entre os dois picos faria um bom 
trabalho na segmentação da imagem. A Figura 10.36(c) 
mostra o resultado do corrompimento da imagem ori- 
ginal com um ruído gaussiano de média zero e desvio 
padrão de 50 níveis de intensidade. Como mostra o his- 
tograma da Figura 10.36(f), a situação é muito mais séria 
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Figura 10.36 


(a) Imagem de 8 bits livre de ruído. (b) Imagem com ruído gaussi 


ano aditivo de média O e desvio padrão de 10 níveis de inten- 


sidade. (c) Inagem com ruído gaussiano aditivo de média O e desvio padrão de 50 níveis de intensidade. (d) a (f) Histogramas correspondentes. 
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agora, já que não há nenhuma maneira de diferenciar 
os dois modos. Sem processamento adicional (como os 
métodos discutidos nas seções 10.3.4 e 10.3.5), temos 
pouca esperança de encontrar um limiar adequado para 
segmentar a imagem. 


O papel da iluminação e a refletância 


A Figura 10.37 ilustra o efeito que a iluminação 
pode ter sobre o histograma de uma imagem. A Figura 
10.37(a) é a versão ruidosa da imagem apresentada na 
Figura 10.36(b) e a Figura 10.37(d) mostra seu histogra- 
ma. Como antes, essa imagem é muito fácil de segmentar 
com um único limiar. Podemos ilustrar os efeitos de ilu- 
minação não uniforme multiplicando a imagem na Figu- 
ra 10.37(a) por uma função de intensidade variável como 
a rampa de intensidade na Figura 10.37(b), cujo histogra- 
ma aparece na Figura 10.37(e).' A Figura 10.37(c) mostra 
o produto da imagem e este padrão de sombreamento. 
Como mostra a Figura 10.37(f), o vale profundo entre os 
picos foi corrompido até o ponto em que a separação dos 
modos sem processamento adicional (ver seções 10.3.4 e 
10.3.5) não é mais possível. Resultados semelhantes se- 
riam obtidos se a iluminação fosse perfeitamente unifor- 
me, mas a refletância da imagem não o fosse, em razão, 
por exemplo, de variações naturais na superfície dos ob- 
jetos e/ou do fundo. 


O ponto fundamental no parágrafo anterior é que 
a iluminação e a refletância desempenham papel central 


no sucesso da segmentação de imagens utilizando a li- 
miarização ou outras técnicas de segmentação. Portanto, 
o controle desses fatores, quando é possível fazê-lo, deve 
ser considerado o primeiro passo para a solução de um 
problema de segmentação. Há três abordagens básicas 
para o problema quando o controle sobre esses fatores 
não é possível. Um é corrigir diretamente o padrão de 
sombreamento. Por exemplo, a iluminação não uniforme 
(porém fixa) pode ser corrigida multiplicando a imagem 
pelo inverso do padrão, o que pode ser obtido adquirin- 
do uma imagem de uma superfície plana de intensida- 
de constante. A segunda abordagem é tentar corrigir o 
padrão global de sombreamento por meio do processa- 
mento, utilizando, por exemplo, a transformada top-hat 
introduzida na Seção 9.6.3. A terceira abordagem é a de 
“contornar” a falta de uniformidade utilizando limiariza- 
ção variável, como discutido na Seção 10.3.7. 


10.3.2 Limiarização global simples 


Como observado na seção anterior, quando as dis- 
tribuições de intensidade dos pixels de fundo e dos obje- 
tos são suficientemente diferentes, é possível utilizar um 
único limiar (global) aplicável a toda a imagem. Na maio- 
ria das aplicações, há uma variabilidade geralmente sufi- 
ciente entre as imagens que, mesmo sendo a limiarização 
global uma abordagem adequada, um algoritmo capaz 
de calcular automaticamente o valor do limiar para cada 
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Figura 10.37 (a) Imagem ruidosa (b) Rampa de intensidade no intervalo 


0,2, 0,6]. (c) Produto de (a) e (b). (d) a (f) Histogramas correspondentes. 


* Em teoria, o histograma de uma imagem de declive é uniforme. Na prática, garantir a uniformidade perfeita depende do tamanho da ima- 
gem e do número de bits de intensidade. Por exemplo, uma imagem em declive de 256 níveis de 256 x 256 tem um histograma uniforme, 
mas uma imagem em declive de 256 x 257 com o mesmo número de intensidades, não. 


imagem se faz necessário. O algoritmo iterativo apresen- 
tado a seguir pode ser utilizado para essa finalidade: 


1. Selecionar uma estimativa inicial para o limiar glo- 
bal, T. 


2. Segmentar a imagem usando T na Equação 10.3-1. 
Isso dará origem a dois grupos de pixels: G,, com- 
posto por todos os pixels com valores de intensidade 
> T, e G, composto de pixels com valores < T. 


3. Calcular os valores de intensidade média de m, e m, 
para os pixels em G, e G, respectivamente. 


4. Calcular um novo valor de limiar: 


1 
T= a" +m,) 


5. Repita as etapas 2 a 4 até que a diferença entre os 
valores de T em iterações sucessivas seja menor que 
o parâmetro predefinido AT. 


Este algoritmo simples funciona bem em situações em 
que há um vale razoavelmente claro entre os modos de 
histograma relacionados aos objetos e ao fundo. O pa- 
râmetro AT é usado para controlar o número de itera- 
ções em situações nas quais a velocidade é uma questão 
importante. Em geral, quanto maior for o AT, menor é 
o número de iterações que o algoritmo executará. O li- 
miar inicial deve ser maior do que o mínimo e menor do 
que o máximo nível de intensidade na imagem (Exercício 
10.28). A intensidade média da imagem é uma boa esco- 
lha inicial para T. 


= 
Exemplo 10.15 Limiarização global. 


A Figura 10.38 mostra um exemplo de segmenta- 
ção baseada na estimativa do limiar utilizando o algoritmo 
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anterior. A Figura 10.38(a) é a imagem original e a Figura 
10.38(b) é o histograma da imagem mostrando um vale bem 
nítido. A aplicação do algoritmo iterativo anterior resultou 
no limiar T = 125,4 após três iterações, começando com 
T =m (a média de intensidade da imagem) e usando AT = 0. 
A Figura 10.38(c) mostra o resultado obtido com T = 125. 
Como esperado, a partir da separação clara entre os modos 
no histograma, a segmentação entre o objeto e o fundo foi 
bastante eficaz. 

E 


O algoritmo anterior foi estabelecido em termos de 
limiarização sucessiva da imagem de entrada e calculan- 
do as médias em cada etapa, pois é mais intuitivo intro- 
duzi-lo dessa maneira. No entanto, é possível desenvol- 
ver um algoritmo mais eficiente se expressarmos todos os 
cálculos nos termos do histograma da imagem, que deve 
ser computado apenas uma vez (Exercício 10.26). 


10.3.3 Limiarização global ótima utilizando o 
método de Otsu 


A limiarização pode ser vista como um problema 
teórico de decisão estatística cujo objetivo é minimizar o 
erro médio incorrido na atribuição de pixels para dois ou 
mais grupos (também chamados de classes). Esse proble- 
ma é conhecido por ter uma solução elegante de forma 
fechada conhecida como a regra de decisão Bayes (ver 
Seção 12.2.2). A solução é baseada em apenas dois pa- 
râmetros: a função densidade de probabilidade (PDF, de 
probability density funcion) dos níveis de intensidade de 
cada classe e a probabilidade de que cada classe ocorra 
em uma determinada aplicação. Infelizmente, estimar as 
PDFs não é uma questão simples, de modo que o pro- 
blema geralmente é simplificado tornando viáveis as su- 
posições sobre a forma das PDFs, como assumir que são 
funções gaussianas. 
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Figura 10.38 


(a) Impressão digital ruidosa. (b) Histograma. (c) Segmentação resultante usando um limiar global (a moldura da imagem foi 


adicionada para maior clareza). (Original cortesia do National Institute of Standards and Technology.) 
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Mesmo com as simplificações, o processo de imple- 
mentação de soluções utilizando essas suposições pode 
ser complexo e nem sempre adequado para aplicações 
práticas. 

A abordagem discutida nesta seção, chamada méto- 
do de Otsu [Otsu (1979)], é uma alternativa atraente. O 
método é ótimo no sentido de que maximiza a variân- 
cia entre classes, uma medida bem conhecida utilizada na 
análise estatística discriminante. A ideia básica é que as 
classes com limiares bem estabelecidos devem ser distin- 
tas em relação aos valores de intensidade de seus pixels 
e, inversamente, que um limiar que oferece a melhor 
separação entre as classes em termos de valores de in- 
tensidade seria o melhor limiar (limiar ótimo). Além do 
componente ótimo, o método de Otsu tem a importante 
peculiaridade de se basear inteiramente em cálculos rea- 
lizados no histograma de uma imagem, um arranjo 1-D 
obtido facilmente. 


Digamos que (0, 1, 2, ..., L-16) denote os L distintos 
níveis de intensidade em uma imagem digital de M x N 
pixels e digamos que n, denote o número de pixels com 
intensidade i. O número total (MN) dos pixels da imagem 
é MN =n,+n,+n,+...+n,,. O histograma norma- 
lizado (ver Seção 3.3) tem componentes p, = n/MN, dos 


quais podemos ver que 


LA 

p=], peo (10.3-3) 
i=0 

Agora, suponha que selecionemos um limiar T(k) = k, 
0 <k <L-1e que o usamos para estabelecer o limiar 
da imagem de entrada em duas classes, C, e C, em que 
C, está constituída por todos os pixels da imagem com 
valores de intensidade no intervalo [0, k] e C, consiste 
dos pixels com valores no intervalo [k + 1, L- 1]. Usan- 
do este limiar, a probabilidade, P (k), de que um pixel 
seja atribuído (ou seja, que seu limiar seja estabelecido) à 
classe C,, é dada pela soma cumulativa 


(10.3-4) 


Visto de outra maneira, esta é a probabilidade de ocorrên- 
cia da classe C,. Por exemplo, se estabelecermos k = 0, a 
probabilidade de a classe C, ter pixels atribuídos a ela é 
zero. Do mesmo modo, a probabilidade de ocorrência da 
classe C, é 


Pk = X p=1-B(k) 


i=k+1 


(10.3-5) 


Da Equação 3.3-18, o valor da intensidade média dos pi- 
xels atribuídos à classe C, é 


(10.3-6) 


na qual P (k) é dada na Equação 10.3-4. O termo P(i/C,) 
na primeira linha da Equação 10.3-6 é a probabilidade do 
valor i, dado que i vem da classe C,. A segunda linha da 
equação resulta da fórmula de Bayes: 


P(A/B) = P(B/A)P(A)/P(B) 


A terceira linha resulta do fato que P(C,/i), a probabilida- 
de de C, dado 7 é 1, pois estamos lidando apenas com os 
valores de i da classe C,. Além disso, P(i) é a probabilidade 
do i-ésimo valor, que é simplesmente o i-ésimo compo- 
nente do histograma, p, Finalmente, P(C,) é a probabi- 
lidade de classe C,, a qual sabemos, a partir da Equação 
10.3-4, que é igual a P (k). 

Similarmente, o valor da intensidade média dos pi- 
xels atribuídos à classe C, é 


(10.3-7) 


A média acumulada (intensidade média) até o nível k é 
dada por 


= 
& 

Í 
OF 
=" 


(10.3-8) 
i=0 

e a intensidade média de toda a imagem (ou seja, a média 

global) é dada por 


(10.3-9) 
i=0 

A validade das duas equações seguintes pode ser verifica- 

da pela substituição direta dos resultados anteriores: 


Pm, + Pm, =m, (10.3-10) 


P +P =1 (10.3-11) 


sendo que omitimos as ks temporariamente em favor da 
clareza da notação. 


A fim de avaliar a “qualidade” do limiar no nível k, 
usamos a métrica normalizada adimensional 


(10.3-12) 
sendo que oj é a variância global (ou seja, a variância de 


intensidade de todos os pixels da imagem, conforme in- 
dicado na Equação 3.3-19), 


(10.3-13) 


e o? é a variância entre classes, definida como 


o; = P (m —m,¥ +P (m, 


mY (10.3-14) 
Esta expressão também pode ser escrita como* 

o; = PP,(m, = 
(mP, = my 


P-P) (10.3-15) 


1 


em que m, e m apresentam-se conforme mencionado an- 
teriormente. A primeira linha desta equação é obtida a 
partir das equações 10.3-14, 10.3-10 e 10.3-11. A segun- 
da linha vem das equações 10.3-5 até 10.3-9. Esta forma 
é um pouco mais eficiente computacionalmente pois a 
média global, m,, é computada apenas uma vez; portan- 
to, apenas dois parâmetros, m e P, devem ser computa- 
dos para qualquer valor de k. 


Vemos, a partir da primeira linha na Equação 10.3- 
15, que, quanto mais longe as duas médias m, e m, esti- 
verem uma da outra, maior será o}, indicando que a va- 
riância entre classes é uma medida da separabilidade entre 
as classes. Já que ø} é uma constante, entendemos que 
n também é uma medida de separabilidade e maximizar 
essa métrica é equivalente à maximização de o}. O obje- 
tivo é, então, determinar o valor limiar, k, que maximiza 
a variância entre classes, tal como referido no início des- 
ta seção. Note que a Equação 10.3-12 assume implicita- 
mente que o; >0. Esta variação pode ser zero somente 
quando todos os níveis de intensidade na imagem forem 
os mesmos, o que implica a existência de apenas uma 
classe de pixels. Isto, por sua vez, significa que 7 = O para 
uma imagem constante, já que a separabilidade de uma 
unica classe a partir de si mesma é zero. 


Retomando k, temos os resultados finais: 


(10.3-16) 


* O segundo passo na Equação 10.3-15 só faz sentido se P, for 
maior que O e menor que 1, o que, vendo a Equação 10.3-11, 
implica que P, deve satisfazer a mesma condição. 
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> _ [eB (k) -mk 
oz(k 
P (k)|1— P (k)] 


1 
Então, o limiar ótimo é o valor, k*, que maximiza o? (k) 


(10.3-17) 


2 = 4 2 
Op (kx) E = (k) 


(10.3-18) 


Em outras palavras, para encontrar k*, simplesmente 
avalie a equação 10.3-18 para todos os valores inteiros de 
k (de forma que a condição 0 < P (k) < 1 permaneça) e 
selecione o valor de k que produz o máximo o? (k). Se o 
máximo existir para mais de um valor de k, é habitual 
calcular a média dos diversos valores de k para os quais 
ci (k) é máximo. Pode ser comprovado (Exercício 10.33) 
que sempre existe um máximo sujeito à condição de que 
0 < P (k) < 1. Avaliar as equações 10.3-17 e 10.3-18 para 
todos os valores de k é um procedimento relativamente 
barato em termos computacionais, pois o número máxi- 
mo de valores inteiros que k pode ter é L. 


Uma vez obtido k*, a imagem de entrada f(x, y) é 
segmentada como antes: 


1 se f(x,y) > kx (10.3-19) 


w= se f(x,y) < kx 


Para x =0, 1, 2,...M-ley=0, 1, 2,...,N-1. Note que 
todas as quantidades requeridas para avaliar a Equação 
10.3-17 são obtidas utilizando apenas o histograma de 
fix, y). Além do limiar global ótimo, outras informações 
sobre a imagem segmentada podem ser extraídas do his- 
tograma. Por exemplo, P (k*) e P,(k*), as probabilidades 
de classes avaliadas no limiar ótimo indicam as parcelas 
das áreas ocupadas pelas classes (grupos de pixels) na 
imagem limiarizada. Do mesmo modo, as médias m (k*) 
e m,(k*) são estimativas da intensidade média das classes 
na imagem original. 


A métrica normalizada n, avaliada no valor do limiar 
ótimo n(k*), pode ser usada para obter uma estimativa 
quantitativa da separabilidade das classes, que, por sua 
vez, dá uma ideia da facilidade de limiarização de uma de- 
terminada imagem. Esta medida tem valores no intervalo” 


0<n(k*) <1 (10.3-20) 


O limite inferior é atingivel apenas por imagens com 
um unico e constante nivel de intensidade, como men- 
cionado anteriormente. O limite superior é atingível ape- 
nas por imagens de dois níveis de intensidade: 0 e L - 1 
(Exercício 10.34). 


“ Embora nosso interesse seja o valor de 7 no limiar ótimo, k’, esta 
desigualdade se mantém, em geral, para qualquer valor de k no 
intervalo [0, L- 1]. 
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O algoritmo de Otsu pode ser assim resumido: 


1. Calcular o histograma normalizado da imagem de 
entrada. Designar os componentes do histograma 
como p, i=0,1,2,...,L-1. 

2. Calcular as somas acumuladas, P (k), para k = 0, 1, 
2,..., L- 1l, usando a Equação 10.3-4. 

3. Calcular as médias acumuladas m(k), para k = 0, 1, 
2,..., L- 1, usando a Equação 10.3-8. 

4. Calcular a intensidade média global, m,, usando 
10.3-9. 


5. Calcular a variância entre classes, o? (k), para k = 0, 
l, 2,..., L- 1, usando a Equação 10.3-17. 

6. Obter o limiar de Otsu, k*, como o valor de k para 
o qual [inserir fórmula] é máxima. Se a máxima 
não for única, obter k* pela média dos valores de 
k que correspondem aos diversos valores máximos 
detectados. 


7. Obter a medida de separabilidade, n*, avaliando a 
Equação 10.3-16 em k = k*. 


O exemplo a seguir ilustra esses conceitos. 


= 
Exemplo 10.16 Limiarização global ótima usando o 
método de Otsu. 


A Figura 10.39(a) mostra uma imagem de microscópio 
ótico de células polimerosomas e a Figura 10.39(b) mostra 
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Figura 10.39 (a) Imagem original. (b) Histograma (os picos elevados 
foram cortados para realçar os detalhes nos valores mais baixos). (c) 
Resultado da segmentação utilizando o algoritmo global básico da 
Seção 10.3.2. (d) Resultado obtido pelo método de Otsu. (Imagem ori- 
ginal: cortesia do Professor Daniel A. Hammer, da Universidade da of 
Pennsylvania.) 


o seu histograma.* O objetivo deste exemplo é segmentar as 
moléculas do fundo. A Figura 10.39(c) é o resultado do uso 
do algoritmo básico de limiarização global desenvolvido na 
seção anterior. Já que o histograma não tem vales distintos 
e a diferença de intensidade entre o fundo e os objetos é pe- 
quena, o algoritmo não conseguiu alcançar a segmentação 
desejada. A Figura 10.39(d) mostra o resultado obtido pelo 
método de Otsu. Esse resultado, obviamente, é superior ao 
da Figura 10.39(c). O valor do limiar calculado pelo algo- 
ritmo básico foi de 169, enquanto o limiar calculado pelo 
método de Otsu era de 181, que está mais próximo das áreas 
mais claras na imagem que define as células. A medida de 
separabilidade n foi 0,467. 

Como ponto de interesse, aplicando o método de Otsu 
para a imagem da impressão digital no Exemplo 10.15 resul- 
tou em um limiar igual a 125 e uma medida de separabilidade 
de 0,944. O limiar é idêntico ao valor (arredondado para o 
número inteiro mais próximo) obtido com o algoritmo bá- 
sico. Isto não é inesperado, dada a natureza do histograma. 
Na verdade, a medida de separabilidade é elevada, principal- 
mente em virtude da separação relativamente grande entre 
os modos e a profundidade do vale entre eles. 

E 


10.3.4 Usando a suavização da imagem para 
melhorar a limiarização global 


Como observado na Figura 10.36, o ruído pode 
transformar um problema simples de limiarização em um 
problema sem solução. Quando o ruído não pode ser re- 
duzido na fonte e a limiarização é o método de segmen- 
tação escolhido, uma técnica que muitas vezes melhora o 
desempenho é suavizar as imagens antes da limiarização. 
Ilustramos este método com um exemplo. 


A Figura 10.40(a) é a imagem da Figura 10.36(c), a 
Figura 10.40(b) mostra um histograma e a Figura 10.40(c) 
é a imagem limiarizada utilizando o método de Otsu. Cada 
ponto preto na região branca e cada ponto branco na re- 
gião preta é um erro do limiar, de modo que a segmenta- 
ção foi muito malsucedida. 


A Figura 10.40(d) mostra o resultado da suavização 
da imagem ruidosa com um filtro da média de 5 x 5 (o ta- 
manho da imagem é 651 x 814 pixels), e a Figura 10.40(e) 
apresenta seu histograma. A melhora no formato do his- 
tograma em virtude da suavização é evidente e esperamos 
que a limiarização da imagem suavizada seja quase perfei- 
ta. Conforme a Figura 10.40(f) mostra, este foi realmente 
o caso. A ligeira distorção da fronteira entre o objeto e 
o fundo da imagem na imagem suavizada e segmenta- 
da foi causada pela indefinição da fronteira. Na verdade, 


* Os polimerosomas são células artificialmente projetadas usando 
polímeros. As polimerosomas são invisíveis para o sistema imu- 
nológico humano e podem ser usadas, por exemplo, para levar 
medicamentos a regiões específicas do corpo. 
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(a) Imagem ruidosa da Figura 10.36 e (b) seu histograma. (c) Resultado obtido pelo método de Otsu. (d) Imagem ruidosa suavizada 


usando uma máscara de média de tamanho 5 x 5 e (e) seu histograma. (f) Resultado da limiarização pelo método de Otsu. 


quanto mais agressiva a suavização da imagem, mais er- 
ros nas fronteiras acontecerão no resultado segmentado. 


Em seguida, consideraremos o efeito de reduzir o 
tamanho da região na Figura 10.40(a) em relação ao fun- 
do. A Figura 10.41(a) mostra o resultado. O ruído nes- 
ta imagem é ruído gaussiano aditivo com média zero e 
desvio padrão de 10 níveis de intensidade (em oposição 
aos 50 do exemplo anterior). Conforme a Figura 10.41 (b) 
mostra, o histograma não possui um vale claro; por isso, 
esperamos falhas de segmentação, um fato confirmado 


pelo resultado da Figura 10.41 (c). A Figura 10.41 (d) mos- 
tra a imagem suavizada por um filtro de média de 5 x 5 e 
a Figura 10.40(e) é o histograma correspondente. Como 
esperado, o efeito final foi a redução do espalhamento do 
histograma, mas a distribuição ainda é unimodal. Como 
vemos na Figura 10.40(f), a segmentação falhou nova- 
mente. O motivo para a falha pode ser atribuído ao fato 
de que a região é tão pequena que sua contribuição para 
o histograma é insignificante em comparação à intensida- 
de da propagação causada pelo ruído. Em situações como 
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Figura 10.41 


(a) Imagem ruidosa. (b) Seu histograma. (c) Resultado obtido pelo método de Otsu. (d) Imagem ruidosa suavizada usando uma 


máscara de média 5 x 5 e (e) seu histograma. (f) Resultado da limiarização pelo método de Otsu. A limiarização falhou em ambos os casos. 
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essa, o método discutido na seção seguinte tem mais 
chances de sucesso. 


10.3.5 Usando as bordas para melhorar a 
limiarização global 

Com base na discussão das últimas quatro seções, 
concluímos que as chances de seleção de um “bom” li- 
miar melhoram consideravelmente se os picos do his- 
tograma forem altos, estreitos, simétricos e separados 
por vales profundos. Uma abordagem para melhorar o 
formato dos histogramas é considerar somente os pixels 
que estão dentro ou perto das bordas entre os objetos e 
o fundo. Uma melhoria imediata e óbvia é que os histo- 
gramas serão menos dependentes do tamanho relativo 
dos objetos e do fundo. Por exemplo, o histograma de 
uma imagem composta por um pequeno objeto, em uma 
grande área de fundo (ou vice-versa), seria dominado por 
um grande pico em virtude da alta concentração de um 
tipo específico de pixels. Vimos na seção anterior que isto 
pode levar ao fracasso da limiarização. 


Se apenas os pixels dentro ou perto das bordas entre 
os objetos e o fundo forem utilizados, o histograma re- 
sultante terá picos de aproximadamente a mesma altura. 
Além disso, a probabilidade de que qualquer um desses 
pixels se encontre em um objeto seria quase a mesma 
que a probabilidade de que esteja no fundo, melhorando, 
assim, a simetria dos modos do histograma. Finalmen- 
te, como indicado no parágrafo seguinte, usar pixels que 
satisfaçam algumas medidas simples baseadas em opera- 
dores de gradiente e laplacianos leva a uma tendência de 
aprofundar o vale entre os picos do histograma. 


A abordagem discutida assume que as bordas entre 
os objetos e o fundo são conhecidas. Esta informação não 
está disponível de forma clara durante a segmentação, já 
que encontrar uma divisão entre os objetos e o fundo é 
precisamente o que a segmentação faz. No entanto, com 
referência à discussão na Seção 10.2, uma indicação para 
saber se um pixel está dentro da borda pode ser obtida 
calculando seu gradiente ou seu laplaciano. Por exem- 
plo, o valor médio do laplaciano é O na transição de uma 
borda (ver Figura 10.10), então os vales dos histogramas 
formados a partir dos pixels selecionados por um crité- 
rio laplaciano podem ser povoados de forma espalhada. 
Esta propriedade tende a produzir os vales profundos de- 
sejáveis, como discutido anteriormente. Na prática, re- 
sultados comparáveis são obtidos utilizando as imagens 
gradiente ou laplacianas, sendo que estas últimas são fa- 
vorecidas, pois são computacionalmente mais atraentes e 
também são detectores de bordas isotrópicos. 


A discussão anterior é resumida no algoritmo se- 
guinte, no qual f(x, y) é a imagem de entrada:” 


1. Calcular uma imagem de borda de f(x, y), ora como 
a magnitude do gradiente, ora como o valor absolu- 
to do laplaciano, usando qualquer um dos métodos 
discutidos na Seção 10.2. 

2. Especificar um valor de limiar, T. 

3. Limiarizar a imagem a partir da Etapa 1, utilizando 
o limiar estabelecido na Etapa 2 para produzir uma 
imagem binária, g,(x, y). Esta imagem é usada como 
uma imagem de máscara na etapa seguinte para se- 
lecionar os pixels de f(x, y) que correspondem aos 
pixels “fortes” da borda. 

4. Calcular um histograma utilizando apenas os pixels 
de f(x, y), que correspondem aos endereços de pixel 
avaliados com o número 1 em g,(x, y). 

5. Use o histograma da Etapa 4 para segmentar f(x, y) 
globalmente, utilizando, por exemplo, o método de 
Otsu. 

Se T é estabelecido no valor máximo da borda da 
imagem, então, de acordo com a Equação 10.3-1, g,(x, 
y) será composto só por 0s, o que implica que todos os 
pixels de f(x, y) serão usados para calcular o histograma 
da imagem.” Neste caso, o algoritmo anterior torna-se 
a limiarização global em que o histograma da imagem 
original é utilizado sem qualquer modificação. É normal 
especificar o valor de T correspondente a um percentual, 
que normalmente é alto (por exemplo, mais de 90), de 
modo que poucos pixels da imagem gradiente/laplaciana 
serão usados no cálculo. Os seguintes exemplos ilustram 
os conceitos já discutidos. O primeiro exemplo usa o gra- 
diente e o segundo usa o laplaciano. Resultados seme- 
lhantes podem ser obtidos em ambos os exemplos usando 
qualquer um dos métodos. A questão importante é gerar 
uma imagem derivativa adequada. 


= 
Exemplo 10.17 Usando a informação das bordas 
baseada no gradiente para melhorar a 
limiarização global. 
As figuras 10.42(a) e (b) mostram a imagem e seu histo- 
grama da Figura 10.41. Vemos que essa imagem não pôde ser 


* É possível modificar este algoritmo para que tanto a magnitude do gra- 
diente quanto o valor absoluto das imagens laplacianas sejam utiliza- 
das. Nesse caso, poderíamos especificar um limiar para cada imagem e 
formar a lógica OU dos dois resultados para obter a imagem marcado- 
ra. Esta abordagem é útil quando se deseja ter mais controle sobre os 
pontos que foram considerados como sendo pontos válidos da borda. 


* O enésimo percentil é o menor número maior que n% dos números 
de um conjunto dado. Por exemplo, se você recebe um 95 em um 
teste e essa pontuação foi maior do que 85% dos demais alunos que 
participaram do exame, então você estaria no percentil 85 em relação 
aos resultados dos testes. 
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Figura 10.42 


(a) Imagem ruidosa da Figura 10.41 e (b) seu histograma. (c) Imagem da magnitude do gradiente limiarizada no percentil 99,7. (d) 


Imagem formada como produto de (a) e (c). (e) Histograma dos pixels diferentes de zero na imagem em (d). (f) Resultado da segmentação da imagem 
(a) com o limiar de Otsu baseado no histograma de (e). O limiar foi de 134, que fica aproximadamente a meio caminho entre os picos no histograma. 


segmentada por suavização seguida de limiarização. O objetivo 
deste exemplo é resolver o problema usando as informações 
da borda. A Figura 10.42(c) é a imagem da magnitude do gra- 
diente limiarizada com percentil de 99,7. A Figura 10.42(d) é a 
imagem formada pela multiplicação desta imagem (máscara) 
pela imagem de entrada. A Figura 10.42(e) é o histograma dos 
elementos diferentes de zero na Figura 10.42(d). Repare que 
este histograma tem as características importantes discutidas 
anteriormente, ou seja, tem modos razoavelmente simétricos 
separados por um vale profundo. Assim, enquanto o histogra- 
ma da imagem ruidosa original não oferecia nenhuma espe- 
rança para uma limiarização bem-sucedida, o histograma da 
Figura 10.42(e) indica que a limiarização do pequeno objeto 
em relação ao fundo é, de fato, possível. O resultado da Figura 
10.42(f) mostra que este foi realmente o caso. Esta imagem foi 
obtida pelo método de Otsu para chegar a um limiar basea- 
do no histograma da Figura 10.42(e) e, então, aplicar global- 
mente este limiar na imagem ruidosa apresentada na Figura 
10.42(a). O resultado é quase perfeito. 

= 


= 

Exemplo 10.18 Usando a informação das bordas 
baseada no laplaciano para melhorar a 
limiarização global. 

Neste exemplo, consideramos um problema mais com- 
plexo de limiarização. A Figura 10.43(a) mostra uma ima- 
gem de 8 bits de células de levedura na qual desejamos usar 
a limiarização global para obter as regiões correspondentes 
aos pontos claros. Como ponto de partida, a Figura 10.43(b) 
mostra o histograma da imagem e a Figura 10.43(c) é 0 re- 
sultado obtido por meio da aplicação direta do método de 
Otsu, usando o histograma mostrado. Vemos que o método 


de Otsu não conseguiu atingir o objetivo inicial de detectar os 
pontos claros e, embora o método seja capaz de isolar algu- 
mas das regiões das células, muitas das regiões segmentadas 
à direita não estão separadas. O limiar calculado pelo método 
de Otsu foi de 42 e a medida de separabilidade foi de 0,636. 


A Figura 10.43(d) mostra a imagem g,(x, y) obtida pelo 
cálculo do valor absoluto da imagem laplaciana e a limiariza- 
ção com T definido a 115 em uma escala de intensidade no 
intervalo [0, 255]. Este valor de T corresponde aproximada- 
mente ao percentil 99,5 dos valores da imagem laplaciana ab- 
soluta; assim, a limiarização a este nível deve resultar em um 
conjunto de pixels reduzido, como mostra a Figura 10.43(d). 
Repare nesta imagem como os pontos se reúnem próximo às 
bordas das manchas claras, como esperado se levarmos em 
consideração a discussão anterior. A Figura 10.43(e) é o his- 
tograma dos pixels diferentes a zero no produto de (a) e (d). 
Finalmente a Figura 10.43(f) mostra o resultado da segmen- 
tação global da imagem original utilizando o método de Otsu 
baseado no histograma da Figura 10.43(e). Este resultado está 
de acordo com as localizações dos pontos claros na imagem. O 
limiar calculado pelo método de Otsu foi 115 e a medida de 
separabilidade foi de 0,762, sendo que ambos são superiores 
aos valores obtidos utilizando o histograma original. 


Variando o percentil em que o limiar é fixado, pode- 
mos até melhorar a segmentação das regiões das células. Por 
exemplo, a Figura 10.44 mostra o resultado obtido utilizan- 
do o mesmo procedimento do parágrafo anterior, mas com 
o limite fixado em 55, que é aproximadamente 5% do valor 
máximo da imagem laplaciana absoluta. Este valor está no 
percentil 53,9 dos valores dessa imagem. Este resultado é cla- 
ramente superior ao resultado da Figura 10.43(c) obtida pelo 
método de Otsu a partir do histograma da imagem original. 

E 
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Figura 10.43 


10.3.6 Limiares múltiplos 


Até agora, nossa atenção foi toda para a segmentação 
de imagens utilizando um único limiar global. O método 
de limiarização introduzido na Seção 10.3.3 pode ser es- 
tendido para um número arbitrário de limiares, em virtu- 


Figura 10.44 A imagem apresentada na Figura 10.43(a) seg- 
mentada utilizando o mesmo procedimento explicado nas figuras 
10.43(d) a (f), mas usando um valor inferior para limiarizar a imagem 
laplaciana absoluta. 


Doo 8 AM AMO 25 191 


(a) Imagem das células de levedura. (b) Histograma de (a). 
(b). (d) Laplaciano absoluto limiarizado. (e) Histograma dos pixels diferen 
do o método de Otsu baseado no histograma de (e). (Imagem original: cor 


255 


c) Segmentação de (a) com o método de Otsu, utilizando o histograma em 


es de zero no produto de (a) e (d). (f) Imagem original limiarizada utilizan- 


esia da Professora Susan L. Forsburg, Universidade do Sul da Califórnia.) 


de da medida de separabilidade na qual se baseia também 
e que também se estende a um número arbitrário de clas- 


ses [Fukunaga (1972)]. No caso das classes K, C,, C,,...C,, a 
variancia entre classes se generaliza pela expressao 
K 
=> P, (m, — mg) (10.3-21) 
k=1 
na qual 
P= p, (10.3-22) 
i€C, 
1 . 
m, =—) ip, (10.3-23) 
Py icc, 


em, é a média global dada na Equação 10.3-9. As classes K 
são separadas por K- 1 limiares cujos valores, k, *, k,*..., 
k,.,*, são os valores que maximizam a Equação 10.3-21: 


O75 (Ky (Kayo Ke) = 
max 03 (k,,k,,..Ky_,)  (10.3-24) 


O<k<k,<...k, )<L-1 


Embora este resultado seja absolutamente geral, 
começa a perder o significado conforme o numero de 


classes aumenta, uma vez que estamos lidando com ape- 
nas uma variável (intensidade). Na verdade, a variância 
entre classes geralmente é expressa em termos de múlti- 
plas variáveis definidas como vetores [Fukunaga (1972)]. 
Na prática, utilizar a limiarização global múltipla é uma 
abordagem viável quando houver razões para crer que 
o problema pode ser resolvido de forma eficaz com dois 
limiares. As aplicações que requerem mais de dois limia- 
res geralmente são resolvidas com mais do que apenas 
valores de intensidade. Ao invés disso, o caminho é usar 
descritores adicionais (por exemplo, cor) e o aplicativo é 
moldado como um problema de reconhecimento de pa- 
drões, como explicado na Seção 10.3.8. 


Para as três classes de três intervalos de intensidade 
(que estão separadas por dois limites), a variância entre 
classes é dada por: 


c=P(m-m)+P(m-m)+B(m—-m,) (10.3-25) 


na qual 
k 
i= >»; 
i=0 
k, 
LA 
P = » p; (10.3-26) 
i=k,+1 
e 
1d 
m=— > ip, 
al P, > Pi 
1< 
m, = — > ip, 
E i=k +l 
l L-1 
m => > ip, (10.3-27) 
P, i=k,+1 


Como nas equações 10.3-10 e 10.3-11, as seguintes rela- 
ções são visíveis: 


P m, + Pym, + Pym, =m, (10.3-28) 


P+P,+P,=1 (10.3-29) 


Vemos que os termos Pe m e, portanto oi, são fun- 
ções de k, e k,. Os dois valores de limiar ótimo, kf e k, são 
os valores que maximizam o? (k, k,). Em outras palavras, 
como no caso de limiar único discutido na Seção 10.3.3, 
encontramos os limiares ótimos achando 


“A limiarização com dois limiares às vezes é chamada de histerese 
de limiarização. 
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o7(ki,.k3)= máx o%(k,,k,) (10.3-30) 


O<k<k<L- 

O procedimento começa escolhendo o primeiro va- 
lor de k, (esse valor é 1 porque procurar um limiar de in- 
tensidade 0 não faz sentido; da mesma forma, lembremos 
que os valores de incremento são inteiros, pois estamos li- 
dando com intensidades). Em seguida, k, é incrementado 
em todos os valores superiores a k, e inferiores a L- 1 (ou 
seja, k, =k, + 1,..., L- 2). Então k, é incrementado para 
o valor seguinte e k, percorre novamente todos os valo- 
res superiores a k, e inferiores a L — 1. Este procedimento 
é repetido até que k, = L — 3. O resultado desse processo é 
um arranjo 2-D, o3(k,, k,), e o último passo é procurar 
o valor máximo nesse arranjo. Os valores de k, e k, cor- 
respondentes a esse maximo são os limiares ótimos k * e 
k,*. Se houver vários máximos, os limiares finais serão 
definidos a partir da média dos k, e k, correspondentes. 
A imagem de um determinado limiar é, então, dada por 


a se f(x,y) < ký 
g(x,y)=1b sek, < f(x,y) <k (1053-531) 
c BE) SK, 


na qual a, b e c são três valores válidos quaisquer de in- 
tensidade. 


Finalmente, notamos que a medida de separabili- 
dade definida na Seção 10.3.3 para um limiar estende-se 
diretamente aos limiares múltiplos: 

2 * * 
Op (ki is k, ) 
2 
G 


(ky ky) = (10.3-32) 


o, 
em que g? é a variância total da imagem como apresenta- 
do na Equação 10.3-13. 


= 
Exemplo 10.19 Limiarização global múltipla. 


A Figura 10.45(a) mostra a imagem de um iceberg. O 
objetivo deste exemplo é segmentar a imagem em três re- 
giões: o fundo escuro, a área iluminada do iceberg e a área 
sombreada. É evidente, a partir do histograma da imagem 
na Figura 10.45(b), que dois limiares são necessários para 
resolver este problema. O procedimento discutido anterior- 
mente resultou nos limiares k* = 80 e k* = 177, que, ana- 
lisando a Figura 10.45(b), vemos que estão próximos dos 
centros dos dois vales do histograma. A Figura 10.45(c) é 
o resultado da segmentação usando estes dois limiares na 
Equação 10.3-31. A medida de separabilidade foi de 0,954. 
A razão principal de este exemplo ter funcionado tão bem 
pode ser pelo histograma com seus três modos distintos se- 
parados por vales profundos razoavelmente amplos. 

E 


498 Processamento digital de imagens 


, E M 
0 


191 255 


Figura 10.45 
original: cortesia da Noaa.) 


10.3.7 Limiarização variável 


Como discutido na Seção 10.3.1, fatores como o 
ruído e a iluminação não uniforme possuem um papel 
importante no desempenho de um algoritmo de limiari- 
zação. Mostramos, nas seções 10.3.4 e 10.3.5, que a sua- 
vização da imagem e a utilização da informação da borda 
podem ajudar significativamente. No entanto, é frequen- 
te o caso em que este tipo de pré-processamento é im- 
praticável ou simplesmente ineficiente em prover uma 
melhora da situação para fazer com que o problema possa 
ser resolvido por qualquer um dos métodos discutidos até 
agora. Em tais situações, o próximo nível de comple- 
xidade de limiarização envolve a limiarização variável. 
Nesta seção, discutiremos várias técnicas para a escolha 
dos limiares variáveis. 


(a) Imagem de um iceberg. (b) Histograma. (c) Imagem segmentada em três regiões usando os limiares duplos de Otsu. (Imagem 


Particionamento da imagem 


Uma das metodologias mais simples para a limiariza- 
ção variável é subdividir uma imagem em retângulos que 
se sobrepõem. Essa abordagem é utilizada para compen- 
sar a não uniformidade de iluminação e/ou a refletância. 
Os retângulos escolhidos são suficientemente pequenos 
para que a iluminação de cada um seja o mais unifor- 
me possível. Ilustramos este método com um exemplo. 


m 
Exemplo 10.20 Limiarização variável por meio de 
particionamento da imagem. 
A Figura 10.46(a) mostra a imagem da Figura 10.37(c) 
e a Figura 10.46(b) mostra seu histograma. Ao discutir a 
Figura 10.37(c), concluímos que esta imagem não poderia 
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Figura 10.46 
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(a) Imagem ruidosa e sombreada. (b) Seu histograma. (c) Segmentação de (a) utilizando o algoritmo iterativo global da Seção 


10.3.2. (d) Resultado obtido utilizando o método de Otsu. (e) Imagem subdividida em seis subimagens. (f) Resultado da aplicação do método de 


Otsu individualmente para cada subimagem. 


ser segmentada com um limiar global, um fato confirmado 
pelas figuras 10.46(c) e (d), que mostram os resultados da 
segmentação da imagem usando o esquema iterativo discu- 
tido na Seção 10.3.2 e método de Otsu, respectivamente. 
Ambos os métodos produziram resultados semelhantes, em 
que inúmeros erros de segmentação são visíveis. 


A Figura 10.46(e) mostra a imagem original dividida 
em seis regiões retangulares, e a Figura 10.46(f) é o resulta- 
do da aplicação do método global de Otsu para cada subima- 
gem. Apesar de alguns erros na segmentação serem visíveis, 
a subdivisão da imagem produziu um resultado razoável em 
uma imagem que é muito difícil de segmentar. A razão da 
melhoria é explicada facilmente pela análise do histograma 
de cada subimagem. Como mostra a Figura 10.47, cada 
subimagem é caracterizada por um histograma bimodal, 
com um vale profundo entre os modos, um fato que sabe- 
mos levar a uma limiarização global eficaz. 

A subdivisão da imagem geralmente funciona bem 
quando os objetos de interesse e o fundo ocupam regiões 
de tamanho razoavelmente comparável, como na Figura 
10.46. Quando esse não for o caso, geralmente o método fa- 
lha em virtude da probabilidade de as subdivisões conterem 
somente pixels de fundo ou de objeto. Embora esta situação 
possa ser resolvida usando técnicas adicionais para determi- 
nar quando uma subdivisão contém os dois tipos de pixels, 
a lógica necessária para abordar diferentes cenários pode ser 
complicada. Em tais situações, métodos como os discutidos 
no restante desta seção geralmente são preferíveis. 

= 


Limiarização variável baseada nas propriedades lo- 
cais da imagem 


Uma abordagem mais geral do que o método de 
subdivisão da imagem discutido na seção anterior é cal- 
cular um limiar para cada ponto, (x, y), da imagem com 
base em uma ou mais propriedades especificadas que são 


L 


Figura 10.47 Histogramas das seis subimagens da Figura 10.46(e). 
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calculadas em sua vizinhança. Embora isso possa parecer 
um processo trabalhoso, os algoritmos modernos e o hard- 
ware permitem o processamento rápido da vizinhança, 
especialmente para as funções comuns, como as opera- 
ções lógicas e aritméticas. 


Ilustramos a abordagem básica de limiarização local 
usando o desvio padrão e a média dos pixels na vizinhan- 
ça de cada ponto de uma imagem. Estes dois parâmetros 
são bastante úteis para a determinação de limiares locais, 
pois são descritores de contraste local e intensidade mé- 
dia. Digamos que o, and m, denotam o desvio padrão e 
o yalor médio do conjunto de pixels contidos em uma 
vizinhança, S , centrado nas coordenadas (x, y) de uma 
imagem (veja a Seção 3.3.4 sobre cálculo da média local 
e desvio padrão). As seguintes são formas comuns de li- 
miares variáveis locais: 


T, =40,, + bm,, (10.3-33) 
em que a e b são constantes não negativas, e 
T,=40,+ bm, (10.3-34) 


na qual m, é a média global da imagem. A imagem 
segmentada é calculada como 


l se f(x,y) > Ty 
g(x,y) = 


0 se f(x,y) <T, (10.3-35) 


sendo que f(x, y) é a imagem de entrada. Esta equação é 
avaliada para todos os endereços de pixel da imagem e 
um limiar diferente é calculado para cada posição (x, y) 
utilizando os pixels da vizinhança S, . 


Pode ser adicionado (com um modesto aumento no 
custo computacional) poder adicional à limiarização local 
usando propriedades baseadas nos parâmetros calculados 
a partir da vizinhança de (x, y): 


1 se Q (parametro local) é verdadeiro 


IX, )) = | 


O se Q (parametro local) é falso (10.3-36) 


sendo Q uma propriedade com base nos parâmetros calcu- 
lados utilizando os pixels da vizinhança S, Por exemplo, 
considere a seguinte propriedade, Q(o,, m), com base na 
média local e o desvio padrão: 


verdadeiro se f(x,y) >ao., Ef(x,y)>bm, 
arm.) =| f(x,y) >ao,, Ef(x,y)>bm, 


falso caso contrario 


(10.3-37) 


Note que a Equação 10.3-35 é um caso especial da Equa- 
cao 10.3-36, obtida deixando que Q seja verdadeira se 
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fix, y) > T, e falsa caso contrário. Neste caso, a proprieda- 
de baseia-se simplesmente na intensidade de um ponto. 


Exemplo 10.21 Limiarizagao variável baseada nas 


propriedades locais da imagem. 


A Figura 10.48(a) mostra a imagem de levedura do 
Exemplo 10.18. Esta imagem tem três níveis de intensida- 
de predominantes e por isso é razoável supor que a dupla 
limiarização talvez seja um bom método de segmentação. 
A Figura 10.48(b) é o resultado da utilização do método de 
dupla limiarização explicado na Seção 10.3.6. Como mostra 
a figura, foi possível isolar as áreas claras do fundo, mas as 
regiões cinzas no meio do lado direito da imagem não foram 
segmentadas corretamente (lembre-se de que encontramos 
um problema semelhante com a Figura 10.43(c) no Exem- 
plo 10.18). Para ilustrar o uso de limiarização local, calcu- 
lamos o desvio padrão local o, para todos (x, y) da imagem 
de entrada usando uma vizinhança do tamanho de 3 x 3. A 
Figura 10.48(c) mostra o resultado. Observe como as linhas 
exteriores fracas delineiam corretamente as fronteiras das cé- 
lulas. Depois formamos uma propriedade como especificada 
na Equação 10.3-37, mas utilizamos a média global ao invés 
de m . Escolher a média global geralmente produz melhores 
resultados quando o fundo é quase constante e todas as in- 
tensidades de objeto estão acima ou abaixo da intensidade 
do fundo. Os valores a = 30 e b = 1,5 foram utilizados para 


Figura 10.48 
usando a abordagem de limiarização dupla discutida na Seção 10.3.6. 
(c) Inagem dos desvios padrão locais. (d) Resultado obtido utilizando 
a limiarização local. 


(a) Imagem da Figura 10.43. (b) Imagem segmentada 


completar a especificação da propriedade (estes valores foram 
determinados experimentalmente, fato comum em aplica- 
ções como esta). A imagem foi segmentada depois usando 
a Equação 10.3-36. Conforme a Figura 10.48(d) mostra, o 
resultado é muito bom em relação aos dois tipos de regiões de 
intensidade predominantes na imagem de entrada. Note, em 
particular, que todas as regiões exteriores foram segmentadas 
corretamente e que a maior parte das regiões interiores, mais 
claras, foi isolada corretamente. 

= 


Usando médias de movimento 


Um caso especial do método de limiarização local 
baseia-se no cálculo de uma média móvel ao longo das 
linhas de digitalização de uma imagem. Esta aplicação é 
muito útil no processamento de documentos, em que a 
velocidade é um requisito fundamental. A digitalização 
normalmente obedece a um padrão linha por linha em 
zigue-zague para reduzir o viés de iluminação. Digamos 
que z,+, denota a intensidade do ponto encontrado na 
sequência de digitalização na Etapa k + 1. A média móvel 
(intensidade média) com este novo ponto é dada por” 


k+l 


DE 


l 
n i=k+2-n 


m(k+1)= 


= m(k)+ Hera = Bia  (10.3-38) 
na qual n determina o número de pontos utilizados no 
cálculo da média e m(1) = z/n. Este valor inicial não é ri- 
gorosamente correto porque a média de um único ponto 
é o valor do ponto em si. No entanto, usamos m(1) =z,/n 
para que cálculos especiais não sejam necessários quando 
a Equação 10.3-38 é executada pela primeira vez. Outra 
maneira de ver o problema é que este é o valor que obte- 
riamos se a borda da imagem fosse preenchida com n- 1 
zeros. O algoritmo é inicializado uma única vez e não em 
todas as linhas. Já que a média móvel é calculada para 
cada ponto da imagem, a segmentação é implementada 
usando a Equação 10.3-35 com T = bm,, em que b é 
constante e m,, é a média móvel da Equação 10.3-38 no 
ponto (x, y) na imagem de entrada. 


= 
Exemplo 10.22 Limiarização de documentos usando 
médias móveis. 
A Figura 10.49(a) mostra uma imagem de texto es- 


crito à mão sombreada por um padrão de intensidade. Esta 
forma de sombreamento de intensidade é típica das imagens 


* A primeira expressão é válida para k > n — 1. Quando k é menor 
que n— 1, as médias são formadas com os pontos disponíveis. Da 
mesma forma, a segunda expressão é válida para k > n + 1. 
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Figura 10.49 
tado da limiarização local usando médias móveis. 


obtidas com um flash fotográfico. A Figura 10.49(b) é o re- 
sultado da segmentação utilizando o método de limiarização 
global de Otsu. É esperado que a limiarização global não pos- 
sa ultrapassar a variação da intensidade. A Figura 10.49(c) 
mostra uma segmentação bem-sucedida com limiarização 
local usando médias móveis. A regra básica é deixar n igual 
a 5 vezes a largura média do traço. Neste caso, a largura mé- 
dia era de 4 pixels, então temos n = 20 na Equação 10.3-38 
e usamos b = 0,5. 

Como outro exemplo da eficácia desta abordagem de 
segmentação, utilizamos os mesmos parâmetros no parágra- 
fo anterior para segmentar a imagem na Figura 10.50(a), a 
qual está corrompida por uma variação de intensidade se- 
noidal típica da variação que pode ocorrer quando o forne- 
cimento de energia em um digitalizador de documentos não 
é o apropriado. As figuras 10.50(b) e c mostram resultados 
da segmentação comparáveis aos da Figura 10.49. 

É interessante observar que os resultados de segmenta- 
ção de sucesso foram obtidos em ambos os casos utilizando os 
mesmos valores para n e b, o que mostra a relativa robustez do 
método. Em geral, a limiarização baseada nas médias móveis 
funciona bem quando os objetos de interesse são pequenos 
(ou finos) em relação ao tamanho da imagem, uma condição 
que as imagens de texto digitado ou manuscrito possuem. 

E 


10.3.8 Limiarização baseada em diversas variáveis 


Até agora, falamos apenas da limiarização baseada 
em uma única variável: intensidade dos tons de cinza. 
Em alguns casos, um sensor pode disponibilizar mais de 
uma variável para identificar cada pixel em uma ima- 
gem e, assim, permitir uma [imiarização multivariada. Um 
exemplo notável é a imagem em cores, na qual os com- 
ponentes vermelho (R), verde (G) e azul (B) são usados 
para formar uma imagem de cores composta (ver Capí- 
tulo 6). Neste caso, cada “pixel” é identificado por três 
valores e pode ser representado como um vetor 3-D, z = 
(Z, Zy» Z)", cujos componentes são as cores RGB em um 
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(a) Imagem de texto corrompido por sombreamento pontual. (b) Resultado da limiarização global pelo método de Otsu. (c) Resul- 


ponto. Estes pontos 3-D são frequentemente chamados 
de voxels, para denotar elementos volumétricos em oposi- 
ção aos elementos de imagem. 


Como discutido em detalhes na Seção 6.7, a limiari- 
zação multivariada pode ser vista como um cálculo de dis- 
tância. Suponha que queiramos extrair de uma imagem 
colorida todas as regiões com uma faixa de cor específica: 
por exemplo, tons avermelhados. Vamos denotar a cor 
avermelhada média em que estamos interessados. Uma 
forma de segmentar uma imagem colorida com base nes- 
te parâmetro é calcular uma medida de distância, D(z, a), 
entre um ponto de cor arbitrária, z e a cor média, a. Então, 
segmentamos a imagem de entrada da seguinte forma: 


j= l se D(z,a)<T 


0 caso contrário  (10.3-39) 


na qual T é um limiar e entende-se que o cálculo da dis- 
tância é realizado em todas as coordenadas da imagem de 
entrada para gerar os correspondentes valores segmen- 
tados em g. Nota-se que as desigualdades nessa equação 
são o oposto das desigualdades que usamos na Equação 
10.3-1 para a limiarização de uma única variável. A ra- 
zão é que a equação D(z, a) = T define um volume (ver 
Figura 6.43) e é mais intuitivo pensar nos valores dos 
pixels segmentados como se estivessem contidos dentro 
do volume e nos valores dos pixels de fundo como se 
estivessem contidos na superfície ou fora do volume. A 
Equação 10.3-39 se reduz à Equação 10.3-1, permitindo 
que D(z, a) =- f(x, y). 

Observe que a condição f(x, y) > T basicamente diz 
que a distancia euclidiana entre o valor de fe a origem 
da linha real excede o valor de T. Assim, a limiarização 
baseia-se no cálculo de uma medida de distância, e a for- 
ma da Equação 10.3-39 depende da medida utilizada. Se, 
em geral, z é vetor n-dimensional, sabemos, a partir da 
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Figura 10.50 
Resultado da limiarização local usando médias móveis. 


Seção 2.6.6, que a distância euclidiana n-dimensional é de- 
finida como 


D(z,a)= lz— al 


=|(z—a)"(z—a)}’  (10.3-40) 

A equação D(z, a) = T descreve uma esfera (chama- 
da de hiperesfera) no espaço euclidiano n-dimensional (a 
Figura 6.43 mostra um exemplo de 3-D). Uma medida de 
distância mais poderosa é a chamada distância de Mahala- 
nobis, definida como 


(10.3-41) 


na qual C é a matriz de covariância de zs, como discu- 
tido na Seção 12.2.2. D(z, a) = T descreve uma hipe- 
relipse n-dimensional (a Figura 6.43 mostra um exem- 
plo 3-D). Esta expressão é reduzida à Equação 10.3-40 
quando C =I, matriz identidade. 


Oferecemos um exemplo detalhado na Seção 6.7 a 
respeito do uso dessas expressões. Discutimos também, na 
Seção 12.2, o problema de segmentar as regiões de uma 
imagem utilizando técnicas de reconhecimento de padrões 
baseadas em funções de decisão, o que pode ser visto como 
um problema multivariado de classes múltiplas. 


10.4 Segmentação baseada na região 


Como discutido na Seção 10.1,° o objetivo da seg- 
mentação é a divisão de uma imagem em regiões. Na Se- 
ção 10.2, abordamos este problema tentando encontrar 
fronteiras entre as regiões com base na descontinuidade 
dos níveis de intensidade, ao passo que, na Seção 10.3, a 
segmentação foi realizada por meio de limiares conside- 
rando a distribuição das propriedades dos pixels, como 
seus valores de intensidade ou cor. Nesta seção, discuti- 


Você deve revisar a terminologia introduzida na Seção 10.1 antes 
de prosseguir. 
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(a) Imagem de texto corrompida pelo sombreamento senoidal. (b) Resultado da limiarização global pelo método de Otsu. (c) 


mos técnicas de segmentação que estão baseadas em en- 
contrar as regiões de forma direta. 


10.4.1 Crescimento de região 


Como o próprio nome indica, o crescimento de re- 
gião é um procedimento que agrupa os pixels ou as sub- 
-regiões em regiões maiores com base em critérios prede- 
finidos para o crescimento. A abordagem básica é começar 
com um conjunto de pontos “semente” e, a partir de- 
les, fazer as regiões crescerem anexando a cada semente 
aqueles pixels vizinhos que têm propriedades predefini- 
das semelhantes às das sementes (como os intervalos es- 
pecíficos de intensidade ou cor). 


A seleção de um conjunto de um ou mais pontos 
de partida muitas vezes pode ser baseada na natureza do 
problema, como veremos mais tarde, no Exemplo 10.23. 
Quando uma informação a priori não estiver disponível, o 
procedimento é calcular em cada pixel o mesmo conjunto 
de propriedades que, em última análise, serão utilizadas 
para designar os pixels das regiões durante o processo de 
crescimento. Se o resultado desses cálculos mostrar con- 
juntos de valores, os pixels cujas propriedades os deixam 
perto do centroide desses aglomerados podem ser usados 
como sementes. 


A seleção dos critérios de similaridade depende não 
só do problema em questão, mas também do tipo de da- 
dos da imagem disponível. Por exemplo, a análise em 
imagens de satélite do uso da terra depende fortemente 
do uso da cor. Este problema seria muito mais difícil ou 
mesmo impossível de resolver sem as informações ine- 
rentes disponíveis nas imagens coloridas. Quando as ima- 
gens são monocromáticas, a análise de região deve ser 
realizada com um conjunto de indicadores baseados nos 
níveis de intensidade e nas propriedades espaciais (como 
os momentos ou textura). Discutiremos os descritores 
úteis para a caracterização de região no Capítulo 11. 


Usar apenas os descritores pode produzir resulta- 
dos ilusórios se as propriedades de conectividade não fo- 
rem utilizadas no processo de crescimento da região. Por 
exemplo, visualize um arranjo aleatório de pixels com 
apenas três valores de intensidade distintos. O agrupa- 
mento de pixels com o mesmo nível de intensidade para 
formar uma “região” sem levar em consideração a conec- 
tividade resultaria em uma segmentação sem sentido no 
contexto desta discussão. 


Outro problema do crescimento de região é a for- 
mulação de uma regra de parada. O crescimento da região 
deve parar quando não houver mais pixels satisfazendo 
os critérios de inclusão na região referida. Critérios como 
os valores de intensidade, textura e cor são de natureza 
local e não levam em conta o “histórico” da região cres- 
cida. Critérios adicionais que aumentam o poder de um 
algoritmo de crescimento de região utilizam o conceito 
de tamanho, semelhança entre um pixel candidato e os 
pixels selecionados até o momento (como uma compara- 
ção entre a intensidade de um candidato e a intensidade 
média da região crescida) e o formato da região que está 
sofrendo o crescimento. O uso desse tipo de descritores 
é baseado na suposição de que um modelo de resultados 
esperados, pelo menos, está parcialmente disponível. 


Digamos que: f(x, y) denota um arranjo de imagem 
de entrada; S(x, y) denota um arranjo contendo sementes 
com Is indicando os pontos das sementes e Os nas demais 
localizações; e Q que denota uma propriedade a ser apli- 
cada em cada posição (x, y). Os arranjos fe S são conside- 
rados do mesmo tamanho. O algoritmo básico de cresci- 
mento da região baseia-se em conectividade-8 e pode ser 
estabelecido como segue. 


1. Encontrar todos os componentes conectados em 
S(x, y) e erodir cada componente conectado a um 
pixel; rotular todos os pixels encontrados com o nú- 
mero 1. Todos os outros pixels em S recebem 0.º 

2. Formar uma imagem f, que, em um par de coorde- 
nadas (x, y), deixe f,(x, y) = 1 se a imagem de en- 
trada satisfaz a propriedade determinada, Q, nessas 
coordenadas; caso contrário, deixe f(x, y) = 0. 

3. Digamos que g é uma imagem formada anexando a 
cada semente em S todos os pontos rotulados com o 
número 1 emf que estão 8-conectadosaessasemente. 

4. Rotular cada componente conectado em g com uma 
diferente etiqueta de região (por exemplo, 1, 2, 3, ...). 
Esta é a imagem segmentada obtida pelo crescimento 
de região. 

Ilustramos a mecânica deste algoritmo com um 
exemplo. 


* Veja as seções 2.5.2 e 9.5.3 sobre os componentes conectados e a 
Seção 9.2.1 sobre a erosão. 
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E 
Exemplo 10.23 Segmentação por crescimento da região. 


A Figura 10.51(a) mostra uma imagem de raios X 
de 8 bits de uma solda (região escura horizontal), conten- 
do várias fissuras e porosidades (regiões claras na direção 
horizontal passando através do centro da imagem). Ilustra- 
mos o uso do crescimento de região segmentando as regiões 
com defeito de solda. Essas regiões poderiam ser usadas em 
aplicações como a inspeção de solda, para inclusão em um 
banco de dados de estudos históricos, ou para controlar um 
sistema de soldagem automática. 


A primeira etapa do processo é determinar os pontos 
-semente. A partir da física do problema, sabemos que 
as fissuras e as porosidades irão atenuar os raios X consi- 
deravelmente menos do que as soldas sólidas e, por isso, 
esperamos que as regiões que contenham esses tipos de 
defeitos sejam significativamente mais claras do que as ou- 
tras partes da imagem de raios X. Podemos extrair os pon- 
tos-semente limiarizando a imagem original, utilizando um 
limiar fixado em um percentual elevado. A Figura 10.51 (b) 
mostra o histograma da imagem e a Figura 10.51(c) mostra 
o resultado obtido com um determinado limiar de valor 
igual ao percentil 99,9 dos valores de intensidade na ima- 
gem, que, neste caso, foi igual a 254 (veja a Seção 10.3.5 a 
respeito dos percentis). 


A Figura 10.51(d) mostra o resultado de erodir mor- 
fologicamente cada componente conexo na Figura 10.51(c) 
para um único ponto. 


Em seguida, temos de especificar uma propriedade. 
Neste exemplo, estamos interessados em adicionar a cada 
semente todos os pixels que (a) sejam 8-conectados a essa 
semente e (b) sejam “semelhantes” a ela. Utilizando as di- 
ferenças de intensidade como uma medida de similaridade, 
nossa propriedade aplicada em cada posição (x, y) é 


VERDADEIRO | sea diferença absoluta 

das intensidades for 

Q= entre o seed e o pixel 
de (x,y)é T 


FALSO caso contrário 


na qual T é um limiar estabelecido. Embora esta propriedade 
esteja baseada em diferenças de intensidade e use um único 
limiar, poderíamos especificar esquemas mais complexos em 
que um limiar diferente é aplicado a cada pixel e outras pro- 
priedades além das diferenças são utilizadas. Neste caso, a 


propriedade anterior é suficiente para resolver o problema, 
como o resto deste exemplo mostra. 


Do parágrafo anterior, sabemos que o menor valor de 
sementes é 255, pois a imagem foi limiarizada em 254. A 
Figura 10.51(e) mostra o valor absoluto da diferença entre 
as imagens nas figuras 10.51(a) e (c). A imagem na Figura 
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Figura 10.51 


(a) Imagem de raios X de uma solda defeituosa. (b) Histograma. (c) Imagem inicial com as sementes. (d) Imagem final com as 


sementes (os pontos foram ampliados para maior clareza). (e) Valor absoluto da diferença entre (a) e (c). (f) Histograma de (e). (g) Imagem da 
diferença após uma limiarização utilizando limiares duplos. (h) Inagem da diferença limiarizada com o menor dos limiares duplos. (i) Resultado 
da segmentação obtido pela técnica de crescimento de região. (Imagem original: cortesia de X-TEK Systems, Ltd.) 


10.51(e) contém todas as diferenças necessárias para calcu- 
lar a propriedade em cada posição (x, y). A Figura 10.51 (f) 
mostra o histograma correspondente. Precisamos de um 
limiar para usar na propriedade para estabelecer a simila- 
ridade. O histograma possui três modos principais, então 
podemos começar aplicando à imagem de diferença a técni- 
ca de limiarização dupla discutida na Seção 10.3.6. Os dois 
limiares resultantes neste caso foram T, = 68 e T, = 126, que 
correspondem aos vales do histograma. (Como uma breve 
explicação, segmentamos a imagem com estes dois limiares. 
O resultado na Figura 10.51(g) mostra que o problema de 
segmentar os defeitos não pode ser resolvido com limiares 
duplos, mesmo que estejam nos vales principais.) 


A Figura 10.51(h) mostra o resultado da limiarização 
da imagem de diferença com apenas T,. Os pontos pretos 
são os pixels para os quais a propriedade era VERDADEI- 
RA; os outros não satisfizeram a propriedade. O resultado 
importante aqui é que os pontos nas regiões boas da solda 
não cumpriram a propriedade, então não serão incluídos no 


resultado final. Os pontos na região exterior serão conside- 
rados como candidatos pelo algoritmo de crescimento da re- 
gião. No entanto, a Etapa 3 irá rejeitar os pontos exteriores, 
porque eles não estão 8-conectados às sementes. Na verda- 
de, como a Figura 10.51(i) mostra, esta etapa resultou na 
segmentação correta, indicando que o uso da conectivida- 
de era uma exigência fundamental neste caso. Finalmente, 
observe que, na Etapa 4, foi utilizado o mesmo valor para 
todas as regiões encontradas pelo algoritmo. Neste caso, foi 
visualmente preferível fazê-lo assim. 

= 


10.4.2 Divisão e fusão de região 


O processo discutido na última seção aumenta o 
tamanho das regiões a partir de um conjunto de pon- 
tos-semente. Uma alternativa é subdividir uma imagem 
inicialmente em um conjunto de regiões distintas e arbi- 
trárias e, em seguida, fundir e/ou dividir as regiões em 


uma tentativa de satisfazer as condições de segmentação 
indicadas na Seção 10.1. Os princípios básicos da divisão 
e a fusão são discutidos a seguir. 


Assuma que R representa a região da imagem intei- 
ra e selecione uma propriedade Q. Uma abordagem para 
segmentar R é dividi-la sucessivamente em regiões qua- 
drantes cada vez menores de modo que, para qualquer 
região de R, Q(R,) = VERDADE. Começamos com a região 
inteira. Se Q(R) = FALSO, podemos dividir a imagem 
em quadrantes. Se Q é FALSA para qualquer quadrante, 
temos de dividir esse quadrante em subquadrantes e as- 
sim por diante. Esta técnica de divisão em particular tem 
uma representação conveniente na forma dos chamados 
quadtrees, isto é, as árvores em que cada nó possui exata- 
mente quatro descendentes, como mostra a Figura 10.52 
(as imagens correspondentes aos nós de uma quadtree às 
vezes são chamados de quadrirregiões ou quadri-ima- 
gens). Repare que a raiz da árvore corresponde à imagem 
inteira e que cada nó corresponde à subdivisão de um nó 
em quatro nós descendentes. Neste caso, só R, continuou 
a ser subdividida. 


Se só a divisão for usada, a partição final normal- 
mente conterá regiões adjacentes com propriedades idên- 
ticas. Esta desvantagem pode ser sanada permitindo a fu- 
são e a divisão. Satisfazer as restrições de segmentação 
apresentadas na Seção 10.1 requer a fusão só das regiões 
adjacentes cujos pixels combinados cumprem a proprie- 
dade Q. Ou seja, duas regiões adjacentes R, e R, são fusio- 
nadas somente se Q(R,UR,) = VERDADE. 


A discussão anterior pode ser resumida pelo proce- 
dimento a seguir, no qual, em qualquer etapa, podemos 


1. Dividir em quatro quadrantes separados qualquer 
região R, para a qual Q(R) = FALSO. 

2. Quando não for possível continuar dividindo, fundir 
as regiões adjacentes R, e R, para as quais Q(RUR,) = 
VERDADE, 


3. Parar quando a fusão não for mais possível. 


“1° 1 © ®© © @ 


Figura 10.52 (a) Imagem particionada. (b) Quadtree corresponden- 
e. Rrepresenta toda a região da imagem. 


fab) 
o 


* Veja a Seção 2.5.2 sobre a adjacéncia de regiões. 
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É normal especificar um tamanho mínimo de qua- 
drirregião além do qual nenhuma divisão é realizada. 


Numerosas variações do tema básico anterior são 
possíveis. Por exemplo, uma simplificação significativa 
ocorre se, na Etapa 2, permitimos a fusão entre as duas 
regiões adjacentes R e R, se cada um satisfaz a proprie- 
dade individualmente. Isso leva a um algoritmo muito 
mais simples (e rápido), porque o teste da propriedade 
é limitado a quadrirregiões individuais. Como mostra o 
exemplo a seguir, esta simplificação é, ainda, capaz de 
produzir bons resultados de segmentação. 


= 
Exemplo 10.24 Segmentação por divisão e fusão de 
regiões. 

A Figura 10.53(a) mostra uma imagem de raio X de 
566 x 566 pixels da Cygnus Loop. O objetivo deste exemplo 
é retirar da imagem (segmentar) o “anel” de matéria menos 
densa em torno do centro denso. A região de interesse tem 
algumas características óbvias que devem ajudar na sua seg- 
mentação. Primeiro, notamos que os dados nesta região têm 
uma natureza aleatória, indicando que seu desvio padrão 
deve ser maior que o desvio padrão do fundo (que é quase 
0) e da grande região central, que está bastante suavizada. 
Da mesma forma, o valor médio (intensidade média) de 
uma região que contém os dados do anel externo deve ser 
maior que a média do fundo mais escuro e menor do que a 
média da região central grande e mais clara. Assim, devemos 
ser capazes de segmentar a região de interesse utilizando a 


propriedade que segue: 
b F mn 


d 


Figura 10.53 
de raios X pelo telescópio Hubble da Nasa. (b) a (d) Resultados de limitar 
a menor quadrirregião permitida aos tamanhos de 32 x 32, 16 x 16, 
e 8 x 8 pixels, respectivamente. (Imagem original: cortesia da Nasa.) 


(a) Imagem da supernova Cygnus Loop, tomada na banda 
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_ | VERDADEIRO sea >aEO<m<b 


~ |RALSO caso contrario 


em que m e o são a média e o desvio padrão dos pixels em 
uma quadrirregião, e a e b são constantes. 


A análise de várias regiões na área externa de interesse 
revelou que a intensidade média dos pixels nessas regiões 
não era superior a 125 e o desvio padrão era sempre maior 
que 10. As figuras 10.53(b) até d mostram os resultados ob- 
tidos usando esses valores para a e b e variando o tamanho 
mínimo permitido para as quadrirregiões de 32 para 8. Os 
pixels em uma quadrirregião cujos pixels cumprem a pro- 
priedade devem ser brancos e todos os outros dessa região 
devem ser pretos. 


O melhor resultado em termos de captar o formato 
da região externa foi obtido utilizando quadrirregiões de ta- 
manho 16 x 16. Os quadrados pretos na Figura 10.53(d) 
são quadrirregiões de tamanho 8 x 8 cujos pixels não cum- 
priam a propriedade. Usar quadrirregiões menores levaria 
a um número crescente dessas regiões pretas. Usar regiões 
maiores do que a ilustrada aqui resulta em uma segmenta- 
ção do tipo “bloco”. Note que, em todos os casos, as regiões 
segmentadas (pixels brancos) separaram completamente a 
região interior, suavizada do fundo da imagem. Assim, a 
segmentação efetivamente dividiu a imagem em três áreas 
distintas que correspondem às três principais características 
na imagem: região do fundo, região densa e região espalha- 
da. O uso de qualquer uma das regiões em branco na Figura 
10.53 como uma máscara faria com que a tarefa de extrair 
essas regiões a partir da imagem original fosse relativamente 
simples (Exercício 10.40). Como no Exemplo 10.23, esses 
resultados não poderiam ter sido obtidos com segmentação 
baseada na borda ou no limiar. 

= 


Como utilizadas no exemplo anterior, as proprieda- 
des com base na média e no desvio padrão das intensida- 
des de pixel em uma região tentam quantificar a textura 
da região (ver Seção 11.3.3 para uma discussão sobre a 
textura). O conceito de segmentação de textura baseia-se 
no uso de medidas de textura nas propriedades. Em ou- 
tras palavras, podemos fazer uma segmentação de textu- 
ra por qualquer um dos métodos discutidos nesta seção 
simplesmente especificando as propriedades com base no 
conteúdo de textura. 


10.5 Segmentação usando watersheds 
morfológicas 

Até agora discutimos a segmentação baseada em 

três conceitos principais: (a) detecção de bordas; (b) li- 

miarização; e (c) crescimento de região. Cada uma dessas 

abordagens tem suas vantagens (por exemplo, a veloci- 


dade no caso da limiarização global) e desvantagens (por 
exemplo, a necessidade de pós-processamento, como 
ligação de bordas na segmentação baseada em bordas). 
Nesta seção, discutimos uma abordagem baseada no con- 
ceito das chamadas watersheds morfológicas. Como ficará 
evidente na discussão que se segue, a segmentação por 
watersheds incorpora muitos dos conceitos das outras três 
abordagens, e como tal, muitas vezes produz resultados 
de segmentação mais estáveis, incluindo as fronteiras de 
segmentação conectadas. Essa metodologia também for- 
nece uma estrutura simples de trabalho para incorporar 
as restrições baseadas no conhecimento (veja a Figura 
1.23) no processo de segmentação. 


10.5.1 Apresentação 


O conceito de watershed (bacias hidrográficas) ba- 
seia-se na visualização de uma imagem em três dimen- 
sões: duas coordenadas espaciais versus intensidade, como 
na Figura 2.18(a). Em uma interpretação “topográfica” 
como esta, consideram-se três tipos de pontos: (a) os 
pontos que pertencem a um mínimo regional; (b) pontos 
em que uma gota d'água, se despejada na localização de 
algum desses pontos, cairia quase que com certeza em 
um mínimo simples; e (c) pontos em que a água tem a 
mesma probabilidade de cair em mais de um mínimo des- 
ses. Para um mínimo regional específico, o conjunto de 
pontos que satisfaz a condição (b) é chamado de bacia 
hidrográfica, catchment basin ou watershed desse mínimo. 
Os pontos que satisfazem a condição (c) formam linhas 
de crista sobre a superfície topográfica e são denominados 
linhas de divisão ou linhas de watershed. 


O principal objetivo dos algoritmos de segmentação 
baseados nesses conceitos é encontrar as linhas de wa- 
tershed. A ideia básica é simples, como ilustrado pela se- 
guinte analogia. Suponha que um orifício seja perfurado 
em cada mínimo regional e que a topografia inteira seja 
inundada de baixo para cima, deixando a água subir pe- 
los orifícios a uma taxa uniforme. Quando a água acumu- 
lada nas diversas watersheds está prestes a se juntar, uma 
barragem é construída para impedir a fusão. A inundação 
acabará por chegar a uma fase em que apenas os topos 
das barragens são visíveis acima da linha d'água. Esses li- 
mites da barragem correspondem às linhas de divisão das 
watersheds. Portanto, são as fronteiras (conectadas) extraí- 
das por um algoritmo de segmentação por watershed. 


Essas ideias podem ser explicadas com o auxílio da 
Figura 10.54. A Figura 10.54(a) mostra uma imagem 
em níveis de cinza e a Figura 10.54(b) é a vista topo- 
gráfica em que a altura das “montanhas” é proporcional 
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Figura 10.54 


(a) Imagem original. (b) Vista topográfica. (c) a (d) Duas fases da inundação (e) Resultado de novas inundações. (f) Começo da 


fusão da água de duas watersheds (uma pequena barragem foi construída entre elas). (g) Barragens maiores. (h) Linhas finais da watershed 
(segmentação). (Imagen original: cortesia do Dr. S. Beucher, CMM/École des Mines de Paris.) 


aos valores de intensidade na imagem de entrada. Para 
facilitar a interpretação, as partes de trás das estruturas 
estão sombreadas. Isso não deve ser confundido com 
valores de intensidade; só a topografia geral da repre- 
sentação tridimensional é de interesse. A fim de evitar 
que a água que sobe acabe por se derramar pelas bordas 
da imagem, podemos imaginar o perímetro da topogra- 
fia inteira (imagem) sendo fechada por barragens mais 
altas do que a montanha mais alta possível, cujo valor 
é determinado pelo maior valor de intensidade possível 
na imagem de entrada. 


Suponha que um orifício seja perfurado em cada 
mínimo regional [as áreas pretas na Figura 10.54(b)] e 
que a topografia inteira seja inundada de baixo para cima 
deixando a água subir pelos orifícios a uma taxa unifor- 
me. A Figura 10.54(c) mostra a primeira fase de inunda- 
ção na qual a “água”, vista em cinza-claro, cobriu apenas 
as áreas que correspondem ao fundo muito escuro da 
imagem. Nas figuras 10.54(d) e (e), vemos que a água 
subiu agora até a primeira e segunda watershed, respecti- 
vamente. Enquanto a água continua subindo, eventual- 
mente vai estourar uma das watersheds e irá para a outra. 
A primeira indicação disso é mostrada na Figura 10.54(f). 
Aqui, a água da watershed esquerda transbordou para a 
watershed do lado direito e uma barragem “curta” (com- 
posta por pixels únicos) foi construída para impedir que 
a água se juntasse nesse nível de inundação (os detalhes 


de construção de barragens serão discutidos na seção a 
seguir). O efeito é mais pronunciado conforme a água 
continua subindo, como mostrado na Figura 10.54(g). 
Esta figura mostra uma barragem maior entre as duas wa- 
tersheds e outra barragem na parte superior da watershed 
direita. Esta última barragem foi construída para evitar 
que a água dessa watershed se juntasse com a água das 
áreas correspondentes ao fundo. Este processo continua 
até atingir o nível máximo de inundação (corresponden- 
te ao maior valor de intensidade da imagem). 


As barragens finais correspondem às linhas de water- 
shed, que é o resultado desejado da segmentação. O resul- 
tado deste exemplo é mostrado na Figura 10.54(h) como 
as áreas mais escuras de 1 pixel de espessura sobrepostas 
na imagem original. Observe a importante propriedade 
de que as linhas de watershed formam caminhos conexos, 
produzindo fronteiras contínuas entre as regiões. 

Uma das principais aplicações da segmentação por 
watershed é a extração de objetos quase uniformes (como 
se fosse uma gelatina) do fundo. As regiões caracteriza- 
das por pequenas variações na intensidade têm pequenos 
valores de gradiente. Assim, é normal ver a segmenta- 
ção da watershed aplicada ao gradiente de uma imagem 
e não à imagem como tal. Nesta formulação, os mínimos 
regionais das watersheds correlacionam-se bem com o pe- 
queno valor do gradiente correspondente aos objetos de 
interesse. 
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10.5.2 Construção das barragens 


Antes de prosseguir, vamos ver como realizar a 
construção de barragens ou linhas de watershed exigidas 
pelos algoritmos de segmentação de watershed. A constru- 
ção de barragens é baseada nas imagens binárias, que são 
membros do espaço de inteiros 2-D Z? (ver Seção 2.4.2). 
A maneira mais simples de construir barragens separan- 
do os conjuntos de pontos binários é usar a dilatação 
morfológica (ver Seção 9.2.2). 

As noções básicas de como construir barragens com 
dilatação são ilustradas na Figura 10.55. A Figura 10.55(a) 
mostra partes de duas watersheds na etapa de inundação 
n- l ea Figura 10.55(b) mostra o resultado na próxima 
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Figura 10.55 
n—1 de inundação. (b) A inundação na etapa n, mostrando que a água 
vazou entre as watersheds. (c) Elemento estruturante utilizado para a 
dilatação. (d) Resultado da dilatação e da construção de barragens. 


(a) Duas watersheds parcialmente inundadas na etapa 


etapa de inundação, n. A água vazou de uma watershed 
para outra e, portanto, uma barragem deve ser construí- 
da para evitar que isso aconteça. Para sermos consistentes 
com a notação que introduziremos em breve, digamos 
que M, e M, denotam o conjunto de coordenadas dos 
pontos em dois mínimos regionais. Então, digamos que 
o conjunto de coordenadas dos pontos da watershed asso- 
ciados a estes dois mínimos na etapa n — 1 de inundação 
será denotado por C (M,) e C_,(M,), respectivamente. 
Estas são as duas regiões cinza na Figura 10.55(a). 

Digamos que C [n — 1] denota a união desses dois 
conjuntos. Há dois componentes conectados na Figura 
10.55(a) (ver Seção 2.5.2 sobre componentes conectados) 
e apenas um componente conectado na Figura 10.55(b). 
Este componente conectado engloba os dois componentes 
anteriores que aparecem com linhas ponteadas. O fato de 
dois componentes conectados terem se tornado um úni- 
co componente indica que a água entre as duas watershed 
juntou-se na etapa de inundação n. Digamos que o com- 
ponente conectado seja q. Note-se que os dois componen- 
tes da etapa n — 1 podem ser extraídos de q realizando a 
operação simples tipo E (AND) gNC [n— 1]. Notamos tam- 
bém que todos os pontos pertencentes a uma watershed 
formam um único componente conectado. 


Suponha que cada um dos componentes conecta- 
dos apresentados na Figura 10.55(a) seja dilatado pelo 
elemento estruturante mostrado na Figura 10.55(c), su- 
jeito a duas condições: (1) a dilatação deve se limitar a 
q (isto significa que o centro do elemento estruturante 
pode ser localizado apenas nos pontos em q durante a 
dilatação); e (2) a dilatação não pode ser realizada em 
pontos que façam com que os conjuntos dilatados se mis- 
turem (tornarem-se um único componente conectado). 
A Figura 10.55(d) mostra que uma primeira passagem 
de dilatação (em cinza-claro) ampliou a fronteira de cada 
componente conectado original. Note que a condição (1) 
foi cumprida por todos os pontos durante a dilatação e a 
condição (2) não se aplica a nenhum dos pontos durante 
o processo de dilatação; portanto, o limite de cada região 
foi ampliado de maneira uniforme. 


Na segunda dilatação (em preto), vários pontos dei- 
xaram de cumprir a condição (1), enquanto cumpriam a 
condição (2), resultando no perímetro com descontinui- 
dades mostrado na figura. Também é claro que somente 
os pontos em q que satisfazem as duas condições aqui 
analisadas descrevem o caminho de 1 pixel de espessu- 
ra que aparece sombreado na Figura 10.55(d). Esse ca- 
minho constitui a barragem pretendida de separação na 
etapa n de inundação. A construção da barragem a esse 


nível de inundação é completada pela definição de todos 
os pontos no caminho recém-determinado para um valor 
superior ao valor máximo de intensidade da imagem. A 
altura de todas as barragens geralmente é estabelecida em 
1, acrescido do valor máximo permitido na imagem. Isso 
irá evitar que a água saia da barragem concluída confor- 
me o nível de inundação aumenta. É importante notar 
que as barragens construídas por este processo, que são 
as fronteiras da segmentação desejadas, são componentes 
conectados. Em outras palavras, esse método elimina os 
problemas de linhas de segmentação descontínuas. 


Embora o procedimento descrito esteja baseado em 
um exemplo simples, o método utilizado para situações 
mais complexas é exatamente o mesmo, incluindo o uso 
do elemento estruturante simétrico de 3 x 3 mostrado na 
Figura 10.55(c). 


10.5.3 Algoritmo de segmentação de watersheds 


Digamos que M,, M,,..., M, são conjuntos que de- 
notam as coordenadas dos mínimos regionais de uma ima- 
gem g(x, y). Como indicado no final da Seção 10.5.1, isto 
será uma típica imagem gradiente. Digamos que C(M,) é 
um conjunto que denota as coordenadas dos pontos na 
watershed associados com o mínimo regional M, (lembre- 
-se que os pontos de qualquer watershed formam um con- 
junto conexo). As notações min e máx serão utilizadas 
para designar os valores mínimo e máximo de g(x, y). 
Finalmente, digamos que T[n] representa o conjunto de 
coordenadas (s, t) para os quais g(s, t) <n. Isto é, 


TIn] = {(s, t)/g(s, t) < n) 


Geometricamente, T[n] é o conjunto de coordenadas dos 
pontos em g(x, y) situados abaixo do plano g(x, y) =n. 


(10.5-1) 


A topografia será inundada em incrementos inteiros 
de inundação, de n = mín + 1 para n = máx + 1. Em 
qualquer etapa n do processo de inundação, o algoritmo 
precisa saber o número de pontos abaixo da profundi- 
dade de inundação. Conceitualmente, suponha que as 
coordenadas de T[n] que estão abaixo do plano g(x, y) =n 
foram “marcadas” com preto e todas as outras coordena- 
das foram marcadas em branco. Então, quando olhamos 
sob o plano xy em qualquer incremento n de inundações, 
vamos ver uma imagem binária na qual os pontos pretos 
correspondem a pontos na função que estão abaixo do 
plano g(x, y) =n. Esta interpretação é bastante útil para 
ajudar a esclarecer a discussão que se segue. 

Digamos que C (M) denota o conjunto de coor- 
denadas dos pontos na watershed associados os mínimo 
M, que são inundados na etapa n. Com referência à dis- 
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cussao no parágrafo anterior, C (M,) pode ser visto como 
uma imagem binária dada por 


C(M)=CM)NTIn] 


'(M, ; (10.5-2) 
Em outras palavras, C (M) = 1 na posição (x, y) se (x, y) € 
C(M) E (x, y) € T[n]; caso contrário, C(M) = 0. A inter- 
pretação geométrica deste resultado é simples. Simples- 
mente estamos usando o operador E para isolar a parte 
da imagem binária em T[n] associada com o mínimo re- 
gional M,na fase n de inundação. 


Em seguida, digamos que C[n] indica a união das 
watersheds inundadas na etapa n: 


C[n]= Ucum,) (10.5-3) 


Então C[max + 1] é a união de todas as watersheds: 


R 
C[max + 1]=|JC(M,) (10.5-4) 
i=] 

Isso mostra (Exercicio 10.41) que os elementos 
tanto em C(M) quanto em T[n] nunca são substituídos 
durante a execução do algoritmo e que o número de ele- 
mentos desses dois conjuntos aumenta ou permanece 
igual conforme n aumenta. Assim, segue-se que Cfn — 1] 
é um subconjunto de C[n]. Segundo as equações 10.5-2 
e 10.5-3, C[n] é um subconjunto de T[n], então C[n — 1] 
é um subconjunto de T[n]. A partir disto, obtemos o im- 
portante resultado de que cada componente conectado 
de C[n — 1] está contido em exatamente um componente 
conectado de T[n]. 


O algoritmo para encontrar as linhas de watershed 
é inicializado com C[min + 1] = T[min + 1]. O algorit- 
mo prossegue recursivamente, calculando C[n] a par- 
tir de C[n — 1]. Um procedimento para a obtenção de 
C[n] em C[n - 1] é o seguinte. Digamos que Q designa 
o conjunto de componentes conectados em T[n]. Então, 
para cada componente conectado q € Q[n], existem três 
possibilidades: 


1. gMC[n-1] está vazia. 
2. qN C[n- 1] contêm um componente conectado em 


C[n- 1]. 
3. 4N C[n- 1] contêm mais de um componente conecta- 
do em C[n- 1]. 


A construção de C[n] a partir de C[n — 1] depende de 
em qual dessas três condições o problema se enquadra. 
A Condição 1 ocorre quando um novo mínimo é encon- 
trado, em cujo caso o componente conectado q é incor- 
porado a C[n — 1] para formar C[n]. A Condição 2 ocorre 
quando q fica dentro da watershed de algum mínimo re- 
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gional, situação na qual q é incorporado à C[n — 1] para 
formar C[n]. A Condição 3 ocorre quando todas as cristas, 
ou parte delas, que separam duas ou mais watersheds são 
encontradas. Novas inundações fariam com que o nível 
de água nessas watersheds se misturasse. Assim, uma bar- 
ragem (ou barragens, se mais de duas watersheds estão 
envolvidas) deve ser construída dentro de q para evitar o 
transbordamento entre as watersheds. Como explicado na 
seção anterior, uma barragem de um pixel de espessura 
pode ser construída quando necessário usando a dilata- 
ção q N Cn — 1] com um elemento estruturante 3 x 3 de 
Is e restringindo a dilatação a q. 


A eficiência do algoritmo é melhorada usando ape- 
nas valores de n que correspondam aos valores de inten- 
sidade existentes em g(x, y), podemos determinar esses 
valores, bem como os valores mín e máx, a partir do his- 
tograma de g(x, y). 


Exemplo 10.25 Ilustração do algoritmo de segmentação 


de watershed. 


Considere a imagem e seu gradiente nas figuras 
10.56(a) e b, respectivamente. A aplicação do algoritmo de 
watershed descrito produziu linhas de watershed (caminhos 
brancos) da imagem gradiente como apresentado na Figura 
10.56(c). Essas fronteiras de segmentação aparecem sobre- 
postas na imagem original da Figura 10.56(d). Como obser- 
vado no início desta seção, as fronteiras de segmentação têm 
a importante propriedade de serem caminhos conectados. 


Figura 10.56 (a) Imagem de gotas. (b) Gradiente da imagem. (c) Li- 
nhas de watershed. (d) Linhas de watershed sobrepostas na imagem 
original. (Imagem original: cortesia do Dr. S. Beucher, CMM/Ecole des 
Mines de Paris.) 


10.5.4 O uso de marcadores 


A aplicação direta do algoritmo de segmentação de 
watershed na forma discutida na seção anterior geralmen- 
te leva à super-segmentação em virtude do ruído e de 
outras irregularidades locais do gradiente. Como mostra a 
Figura 10.57, a super-segmentação pode ser grave o sufi- 
ciente para tornar o resultado do algoritmo praticamente 
inútil. Neste caso, isso significa um grande número de 
regiões segmentadas. Uma solução prática para este pro- 
blema é limitar o número de regiões permitidas incorpo- 
rando uma fase de pré-processamento projetada para tra- 
zer conhecimento adicional ao processo de segmentação. 


Uma abordagem utilizada para controlar a super- 
segmentação é baseada no conceito de marcadores. Um 
marcador é um componente conectado que pertence a 
uma imagem. Temos marcadores internos associados aos 
objetos de interesse e indicadores externos associados ao 
fundo. Um procedimento para selecionar o marcador é 
composto por duas etapas principais: (1) pré-processa- 
mento; e (2) definição de um conjunto de critérios que 
os marcadores devem satisfazer. Para ilustrar, veja nova- 
mente a Figura 10.57(a). 


Parte do problema que levou ao resultado super- 
segmentado na Figura 10.57(b) é o grande número de 
mínimos potenciais. Em virtude de seu tamanho, muitos 
desses mínimos são apenas detalhes irrelevantes. Como 
já foi dito várias vezes em debates anteriores, um méto- 
do eficaz para minimizar o efeito dos pequenos detalhes 
espaciais é filtrar a imagem com um filtro de suavização. 
Este é um esquema adequado de pré-processamento para 
este caso específico. 


Suponha que definamos um marcador interno como 
(1) uma região cercada por pontos de maior “altitude”, 
(2) de tal forma que os pontos da região formam um 
componente conectado e (3) na qual todos os pontos do 


Figura 10.57 


(a) Imagem eletroforese. (b) Resultado da aplicação 
do algoritmo de segmentação de watershed à imagem gradiente. A 
super-segmentação é evidente. (imagem original: cortesia do Dr. S. 
Beucher, CMM/École des Mines de Paris.) 


componente conectado têm o mesmo valor de intensi- 
dade. Depois que a imagem foi suavizada, os marcadores 
internos decorrentes dessa definição são mostrados em 
cinza-claro, como se fossem pequenas manchas na Figu- 
ra 10.58(a). Em seguida, o algoritmo de watershed é apli- 
cado na imagem suavizada, sob a restrição de que esses 
marcadores internos sejam os únicos mínimos regionais 
permitidos. 


A Figura 10.58(a) mostra as linhas de watershed re- 
sultantes. Estas linhas de watershed são definidas como 
marcadores externos. Note-se que os pontos ao longo da 
linha de watershed passam pelos pontos mais altos entre 
os marcadores vizinhos. 


Os marcadores externos na Figura 10.58(a) efeti- 
vamente dividem a imagem em regiões, sendo que cada 
região contém um único marcador interno e parte do 
fundo. O problema então se reduz em dividir cada uma 
dessas regiões em dois: um objeto único e seu fundo. Po- 
demos complementar esse simples problema com muitas 
das técnicas de segmentação discutidas anteriormente 
neste capítulo. Outra abordagem é simplesmente aplicar 
o algoritmo de segmentação de watershed a cada região 
individual. Em outras palavras, simplesmente toma- 
mos o gradiente da imagem suavizada [como na Figura 
10.56(b)] e, em seguida, restringimos o algoritmo para 
operar em uma única watershed que contém o marcador 
dessa região específica. O resultado obtido com esta abor- 
dagem é apresentado na Figura 10.58(b). A melhora so- 
bre a imagem da Figura 10.57(b) é evidente. 


A seleção dos marcadores pode variar desde proce- 
dimentos simples com base em valores de intensidade e 
conectividade, como foi ilustrado há pouco, até descri- 
ções mais complexas que envolvem tamanho, formato, 
localização, distâncias relativas, conteúdo da textura e 
assim por diante (veja o Capítulo 11 sobre os descritores). 


| Boss Ea ? 
14 o 
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Figura 10.58 (a) Imagem que mostra os marcadores internos (regiões 
cinza-claras) e marcadores externos (linhas de watershed). (b) Resultado 


da segmentação. Repare na melhoria da Figura 10.57(b). (Imagem origi- 
nal: cortesia do Dr. S. Beucher, CMM/École des Mines de Paris.) 
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O ponto é que a utilização dos marcadores traz um conhe- 
cimento a priori para apoiar o problema de segmentação. 
O leitor deve lembrar que os seres humanos colaboram 
com a segmentação e com as tarefas de alto nível na sua 
visão cotidiana usando um conhecimento a priori, e um 
dos mais conhecidos é o uso do contexto. Assim, o fato de 
a segmentação por watershed oferecer um ambiente que 
possa fazer um uso eficaz desse tipo de conhecimento é 
uma importante vantagem deste método. 


10.6 O uso do movimento na 
segmentação 

O movimento é uma informação poderosa usada 
pelos seres humanos e muitos outros animais para ex- 
trair os objetos ou as regiões de interesse a partir de um 
fundo cheio de detalhes irrelevantes. Nos aplicativos de 
imagem, o movimento surge de um deslocamento rela- 
tivo entre o sistema de detecção e a cena que estamos 
vendo, como nas aplicações de robótica, na navegação 
autônoma e na análise de cenários dinâmicos. Nas seções 
seguintes, consideraremos o uso de movimento na seg- 
mentação tanto no domínio espacial como no domínio 
da frequência. 


10.6.1 Técnicas no domínio do espaço 


Abordagem básica 


Uma das abordagens mais simples para a detecção 
de mudanças entre dois quadros de imagem f(x, y, t) e 
f(x, y, t), tomadas nos momentos t, e t, respectivamente, 
é comparar as duas imagens pixel por pixel. Uma forma 
de fazer isso é criar uma imagem da diferença. Suponha 
que tenhamos uma imagem referência contendo apenas 
os componentes estacionários. Comparar esta imagem 
com uma imagem posterior da mesma cena, mas in- 
cluindo um objeto em movimento, resulta na diferença 
das duas imagens eliminando os elementos fixos, dei- 
xando apenas as entradas diferentes de zero que corres- 
pondem aos componentes não estacionários da imagem. 


A imagem da diferença entre as duas imagens to- 
madas nos momentos f, e £ pode ser definida como 


1 self yt) f(x yt) >T 


d;(x,y)= S 
0 caso contrario 


(10.6-1) 


na qual T é um limiar estabelecido. Note-se que d,(x, y) 
tem um valor de 1 nas coordenadas espaciais (x, y) ape- 
nas se a diferença de intensidade entre as duas imagens 
é sensivelmente diferente nessas coordenadas, conforme 
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determinado pelo limite estabelecido T. Supõe-se que to- 
das as imagens são do mesmo tamanho. Finalmente, ob- 
servamos que os valores das coordenadas (x, y) na Equa- 
ção 10.6-1 abrangem as dimensões destas imagens e, por 
isso, a imagem de diferença d.(X, y) é do mesmo tamanho 
que as imagens da sequéncia. 


No processamento de imagem dinâmica todos os 
pixels em d,(x, y) com valor 1 são considerados como 
resultado do movimento do objeto. Esta abordagem é 
aplicável somente se as duas imagens são registradas es- 
pacialmente e se a iluminação é relativamente constante 
dentro dos limites estabelecidos por T. Na prática, entra- 
das com valor de 1 em d (x, y) podem surgir em função do 
ruído. Normalmente, essas entradas são pontos isolados 
na imagem da diferença e uma abordagem simples para 
sua remoção é formar regiões 4-ou 8-conectadas de Is 
em d(x, y) e, em seguida, ignorar qualquer região que te- 
nha menos do que o número predeterminado de elemen- 
tos. Embora possam ser ignorados objetos pequenos ou 
de movimento lento, esta abordagem aumenta as chan- 
ces de que as entradas restantes na imagem de diferença 
realmente sejam resultado do movimento. 


Diferenças acumulativas 


Considere uma sequência de quadros de imagem 
fox y, th), fix, y, b) fix, y, t,) e digamos que f(x, y, t) é 
a imagem referência. Uma imagem de diferença acumulativa 
(ADI, de accumulative difference image) é formada compa- 
rando esta imagem referência com todas as imagens sub- 
sequentes. Um contador para cada posição de pixel da 
imagem acumulativa é acrescido cada vez que a diferença 
ocorre nesse posição do pixel entre a referência e a ima- 
gem na sequência. Assim, quando o k-ésimo quadro está 
sendo comparado com a referência, a entrada em um de- 
terminado pixel da imagem acumulativa dá o número de 
vezes que ocorreu a diferença de intensidade nessa posi- 
ção (como determinado por Tna Equação 10.6-1) a partir 
do valor do pixel correspondente na imagem referência. 


Considere três tipos de imagens de diferença cumu- 
lativa: ADIs absoluta, positiva e negativa. Assumindo que 
os valores de intensidade dos objetos em movimento são 
maiores do que o fundo, esses três tipos de ADIs são defi- 
nidos da seguinte forma. Digamos que R(x, y) denota uma 
imagem referência e, para simplificar a notação, digamos 
que k denota [símbolo], de modo que f(x, y, k) = f(x, y t,). 
Assumimos que R(x, y) = f(x, y, 1). Então, para qualquer 
k > 1, e tendo em vista que os valores das ADIs são con- 
tagens, definimos as seguintes informações para todos os 
valores relevantes (x, y): 


A, (x,y)+1 se [Rx 9) — fla yk) >T 


A,(x,9) = E 
A, (x,y) caso contrário (10.6-2) 
P(x y)= Pa x,y)+1 se (Rix, y)— f(x,y, k] >T 
dás Fl Xs caso contrario (10.6-3) 
e 
nx) = | Nise) se [Ra 9) fy ki] <—T 
= N, (x,y) caso contrário (10.6-4) 


na qual A, (x, t), P,(x, y), e N,(x, y) são as ADIs absoluta, 
positiva e negativa, respectivamente, após ser encontrar 
a k-ésima imagem da sequência. 

Entende-se que estas ADIs começam com todos os 
valores zero (contador). Veja também que as ADIs são 
do mesmo tamanho que as imagens da sequência. Final- 
mente, observamos que a ordem das desigualdades e os 
sinais dos limiares nas equações 10.6-3 e 10.6-4 são in- 
vertidas se os valores de intensidade dos pixels de fundo 
forem maiores que os valores dos objetos em movimento. 


= 

Exemplo 10.26 Cálculo das imagens de diferença 
acumulativas absoluta, positiva e 
negativa. 


A Figura 10.59 mostra as três ADIs exibidas como ima- 
gens de intensidade para um objeto retangular de dimen- 
sões 75 x 50 pixels que está se movendo na direção sudeste 
a uma velocidade de 52 pixels por quadro. As imagens são 
do tamanho de 256 x 256 pixels. Notamos o seguinte: (1) a 
área diferente de zero na ADI positiva é igual ao tamanho 
do objeto em movimento. (2) A localização na ADI positi- 
va corresponde à localização do objeto em movimento no 
quadro de referência. (3) O número de contagens na ADI 
positiva para de aumentar quando o objeto em movimento 
deslocou-se por completo em relação ao mesmo objeto no 
quadro de referência. (4) A ADI absoluta contém as regiões 
das ADI positivas e negativas. (5) A direção e a velocidade 
do objeto em movimento podem ser determinadas a partir 
das entradas das ADIs absoluta e negativa. 

E 


Estabelecer uma imagem referência 


O essencial para o sucesso das técnicas discutidas nos 
dois pontos anteriores é ter uma imagem referência con- 
tra a qual as comparações subsequentes possam ser feitas. 

A diferença entre duas imagens em um problema de 
imagem dinâmica tem a tendência de cancelar todos os 
componentes estacionários, deixando apenas os elemen- 
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Figura 10.59 ADIs de um objeto retangular se movimentando na direção sudeste. (a) ADI absoluta. (b) ADI positiva. (c) ADI negativa. 


tos de imagem que correspondem ao ruído e aos objetos 
em movimento. 


Na prática, a obtenção de uma imagem referência 
apenas com elementos estacionários nem sempre é pos- 
sível e construir uma referência a partir de um conjunto 
de imagens contendo um ou mais objetos em movimento 
é totalmente necessário. Isto atribui particularidades para 
situações que descrevem cenas muito carregadas ou em 
casos em que é necessária a atualização frequente. Um 
procedimento para gerar uma imagem referência é o se- 
guinte. Considere a primeira imagem de sequência como 
a imagem referência. Quando um componente não es- 
tacionário muda completamente sua posição em relação 
ao quadro referência, o fundo correspondente no quadro 
atual pode ser repetido no local ocupado originalmente 
pelo objeto no quadro referência. Quando todos os obje- 
tos em movimento mudarem completamente suas posi- 
ções originais, uma imagem referência contendo apenas 
os componentes fixos terá sido criada. O deslocamento do 
objeto pode ser estabelecido acompanhando as mudanças 
na ADI positiva, tal como indicado na seção anterior. 


= 
Exemplo 10.27 Construindo uma imagem referência. 
As figuras 10.60(a) e (b) mostram dois quadros de ima- 


gem de um cruzamento de tráfego. A primeira imagem é 
considerada de referência e a segunda mostra a mesma cena 


algum tempo depois. O objetivo é eliminar os principais ob- 
jetos em movimento na imagem referência, a fim de criar 
uma imagem estática. Embora existam outros pequenos ob- 
jetos em movimento, o elemento em movimento principal é 
o automóvel no cruzamento da esquerda para a direita. Para 
fins ilustrativos, nos concentramos neste objeto. Ao acompa- 
nhar as mudanças na ADI positiva, é possível determinar a 
posição inicial de um objeto em movimento, como explicado 
anteriormente. Uma vez que a área ocupada por este objeto 
é identificada, o objeto pode ser removido da imagem por 
subtração. Ao olhar o quadro na sequência em que a ADI 
positiva parou de mudar, podemos copiar desta imagem a 
área anteriormente ocupada pelo objeto em movimento no 
quadro inicial. Esta área é, então, colada na imagem da qual 
o objeto foi cortado, restaurando assim o fundo dessa área. Se 
isto é feito para todos os objetos em movimento, o resultado é 
uma imagem referência só com componentes estáticos contra 
a qual podemos comparar os quadros subsequentes para de- 
tectar o movimento. O resultado da remoção do veículo em 
movimento é mostrado na Figura 10.60(c). 

a 


10.62 Técnicas no dominio da frequência 


Nesta seção consideramos o problema de determi- 
nar o movimento através de uma formulação usando 
uma transformada de Fourier. Considere uma sequência 
fix, y, t), t= 0,1,...,K — 1, de quadros de imagem digi- 
tal K de tamanho M x N gerados por uma câmera fixa. 


Figura 10.60 Construindo uma imagem referência estática. (a) e (b) Dois quadros em uma sequência. (c) Veículo retirado e (a) fundo restaurado 


da área correspondente em (b). (Jain e Jain.) 
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Começamos o desenvolvimento assumindo que todos os 
quadros têm um fundo homogêneo de intensidade zero. 
A exceção é um único objeto de 1 pixel de com intensi- 
dade única que está se movendo com velocidade cons- 
tante. Suponha que para o quadro (t = 0), o objeto está 
na posição (x’, y’) e que o plano de imagem é projetado 
sobre o eixo x, isto é, as intensidades dos pixels são so- 
madas entre as colunas da imagem. Esta operação gera 
um arranjo 1-D com M entradas iguais a zero, exceto em 
x, que é a coordenada x do objeto de um único ponto. 
Se agora multiplicarmos todos os elementos do arranjo 
1-D pela quantidade de exp[j2ma,xAt] para x = 0, 1, 2,..., 
M- 1 e somarmos os resultados, obteremos o termo úni- 
co exp[j27a,x’ At]. Neste formato, a, é um inteiro positivo 
e At é o intervalo de tempo entre os quadros. 


Suponha que no quadro dois (t = 1) o objeto deslo- 
cou-se para as coordenadas (x + 1, y’); isto é, moveu-se 
um pixel paralelo ao eixo x. Então, repetindo o procedi- 
mento de projeção discutido no parágrafo anterior, obte- 
mos a soma exp[j27a (x + 1)At]. Se o objeto continua se 
movendo a um pixel por quadro, em qualquer instante de 
tempo inteiro, ft, o resultado é exp[j2ra (x + At], que, 
utilizando a fórmula de Euler, pode ser expressa como 

geral HA" — cos [2ra (x +t) At] + 
jsen|2ra (x +t) At] (10.6-5) 
para t = 0, 1, ..., K - 1. Em outras palavras, este proce- 
dimento produz uma senoide complexa com frequência 
a,. Se o objeto se mover V, pixels (na direção de x) entre 
quadros, a senoide teria a frequênciaV a. já que t varia 
entre 0 e K — 1 em incrementos inteiros, restringir a, a 
valores inteiros faz com que a transformada discreta de 
Fourier da senoide complexa tenha dois picos, um loca- 
lizado na frequência V,a, e outro na K- Va. Este último 
pico é o resultado da simetria da transformada discreta de 
Fourier, como discutido na Seção 4.6.4 e pode ser igno- 
rado. Assim, a busca pelos picos no espectro de Fourier 
produz V,a,. A divisão desta quantidade por a, produz V, 
que é o componente de velocidade na direção x, como 
a taxa de quadros supostamente é conhecida. Um argu- 
mento semelhante produziria V,, o componente da velo- 
cidade na direção y. 

Uma sequência de quadros em que nenhum movi- 
mento ocorre produz termos exponenciais idênticos cuja 
transformada de Fourier será constituída por um único 
pico em uma frequência O (um termo dc único). Portan- 
to, já que as operações discutidas até agora são lineares, 
o caso geral envolvendo um ou mais objetos se movendo 
em um fundo estático arbitrário teria uma transforma- 


da de Fourier com um pico em dc correspondente aos 
componentes estáticos da imagem e os picos em locais 
proporcionais às velocidades dos objetos. 


Estes conceitos podem ser resumidos da seguinte 
forma. Para uma sequência de imagens digitais de tama- 
nho M'N, a soma ponderada das projeções sobre o eixo 
x em qualquer instante de tempo (inteiro) é 


MA N-1 


9, (t,a)= f(x, y,t) PR 


(10.6-6) 


Da mesma forma, a soma das projeções sobre o eixo 


(10.6-7) 
na qual, como já observado, a, e a, são inteiros positivos. 

As transformadas de Fourier 1-D das equações 
10.6-6 e 10.6-7 são, 


KA 


G, (u „a,) = So 9, (ta) g TUNK 


t=0 


u, =0,l,.., = 1 (10.6-8) 
e 
K-1 
É (u,,a,) = Sata) eP2mntlK 
t=0 
u,=0,1,...,K-1 (10.6-9) 


Na prática, o cálculo dessas transformações é realizado 
utilizando o algoritmo da FFT como discutido na Seção 
4.11. 


A relação entre frequência e velocidade é 


u,=a,V, (10.6-10) 
e 
u, = 4,V, (10.6-11) 


Nesta formulação, a unidade de velocidade é em pixels 
por tempo de duração do quadro. Por exemplo, V, = 10 
é interpretado como um movimento de 10 pixels em K 
quadros. Para os quadros que são tomados de forma uni- 
forme, a velocidade física real depende da taxa de amos- 
tragem dos quadros e da distância entre os pixels. Assim, 
se V, = 10, K = 30, a taxa de amostragem dos quadros é 
de duas imagens por segundo e a distância entre os pixels 
é de 0,5 m, a velocidade real física na direção x é 


V, = (10 pixels) (0,5 m/pixel)(2 frames/s)/(30 frames) 
=1,3m/s 


O sinal do componente x de velocidade é obtido cal- 
culando 


d’ l 
Six ae (10.6-12) 
é t=n 
d? ; 
E grs a) (10.6-13) 
t=n 


Já que g, é senoidal, pode ser comprovado (Exercício 
10.47) que S, e S, terão o mesmo sinal em um ponto ar- 
bitrário no tempo, n, se o componente de velocidade V, 
for positivo. Por outro lado, os sinais opostos em S, € $, 
indicam um componente negativo. Se S ou S, for zero, 
podemos considerar o ponto mais próximo no tempo, t = 
n + At. O mesmo se aplica para o cálculo do sinal de V.. 


= 

Exemplo 10.28 Detecção de um pequeno objeto em 
movimento por meio do dominio de 
frequéncia. 

As figuras 10.61 até 10.64 ilustram a eficácia da abor- 
dagem mencionada. A Figura 10.61 mostra uma das sequên- 
cias de 32 quadros das imagens Landsat, gerada adicionando 
ruído branco a uma imagem referência. A sequência contém 
um alvo em movimento sobreposto em 0,5 pixels por qua- 
dro na direção x e um pixel por quadro na direção y. O alvo, 
exibido no meio de um círculo na Figura 10.62, tem uma 
distribuição de intensidade gaussiana, espalhada em uma 
pequena área (nove pixels) e não é facilmente perceptível a 
olho nu. As figuras 10.63 e 10.64 mostram os resultados do 
cálculo das equações 10.6-8 e 10.6-9 com a, = 6 ea, = 4, 


Figura 10.61 


Quadro Landsat. (Cowart, Snyder, e Ruedger.) 
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Figura 10.62 Gráfico de intensidade da imagem apresentada na Fi- 
gura 10.61, com o alvo circundado. (Rajala, Riddle e Snyder.) 


respectivamente. O pico em u, = 3 na Figura 10.63 produz, 
utilizando a Equação 10.6-10, V, = 0,5. Da mesma forma, o 
pico de u, 4 = na Figura 10.64 produz, utilizando a Equação 
10.6-11, V, = 1,0. 

E 


Um guia para a seleção de a, e a, pode ser explicado 
com a ajuda das figuras 10.63 e 10.64. Por exemplo, su- 
ponha que tenhamos utilizado a, = 15 ao invés de a, = 
4. Nesse caso, os picos na Figura 10.64 estariam agora em 
a, = 15 e 17, porque V, = 1,0, o que seria um resultado 
duplicado. Como discutido na Seção 4.5.4, a duplicação 
é causada pela subamostragem (há poucos quadros na 
presente discussão, já que o intervalo de u é determina- 
do por K). Como u = aV, uma possibilidade é escolher a 
como o número inteiro mais próximo de a = ura Vn 
em que u é a frequência máxima para que não ocorra 
aliasing. Essa limitação é definida por K, e V. éa veloci- 
dade máxima esperada do objeto. 
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Figura 10.63 Espectro da Equação 10.6-8 mostrando um pico em 
u, = 3. (Rajala, Riddle e Snyder.) 


516 Processamento digital de imagens 


100 5 


oo 
© 
| 


Q 
© 
| 


Magnitude ( X 107) 


0 
| | | | | 
0 4 8 12 16 20 24 28 32 36 40 


Frequéncia 


Figura 10.64 Espectro da Equação 10.6-9 mostrando um pico em 
u,=4. (Rajala, Riddle e Snyder.) 


Resumo 


A segmentação de imagem é um estágio preliminar 
essencial para a maioria das aplicações de reconhecimen- 
to automático de padrões e de análise da cena. Como in- 
dicado pela gama de exemplos apresentados nas seções 
anteriores, a escolha de uma técnica de segmentação em 
detrimento de outra depende principalmente das caracte- 
rísticas peculiares do problema a ser considerado. Os mé- 
todos discutidos neste capítulo, embora longe de serem 
exaustivos, são representativos das técnicas comumente 
utilizadas na prática. 


As referências a seguir podem ser usadas como base 
para um estudo mais aprofundado do tema. 


Referências e leituras complementares 


Por causa de seu papel central no processamento 
autônomo de imagens, a segmentação é um tema trata- 
do na maioria dos livros que tratam do processamento e 
análise de imagens e da visão computacional. Os livros 
a seguir fornecem leituras complementares para nosso 
entendimento deste tópico: Umbaugh (2005); Davies 
(2005); Gonzalez, Woods e Eddins (2004); Shapiro e 
Stockman (2001); Sonka et al. (1999); e Petrou e Bosdo- 
gianni (1999). 

Trabalhos sobre o uso de máscaras para detectar as 
descontinuidades na intensidade da Seção 10.2 têm uma 
longa história. Várias máscaras foram propostas ao longo 
dos anos: Roberts (1965), Prewitt (1970), Kirsh (1971), 
Robinson (1976), Frei e Chen (1977) e Canny (1986). 
Um artigo de revisão feito por Fram e Deutsch (1975) 
contém numerosas máscaras e uma avaliação de seu de- 
sempenho. 

No que diz respeito ao desempenho de máscaras, es- 
pecialmente para detecção de borda, ainda é uma área de 
grande interesse, como exemplificado por Qian e Huang 


(1996), Wang et al. (1996), Heath et al. (1997, 1998) e 
Ando (2000). A detecção de bordas em imagens coloridas 
aumentou sua popularidade graças a algumas aplicações 
de detecção múltipla. Veja, por exemplo, Salinas, Abidi 
e Gonzalez (1996); Zugaj e Lattuati (1998); Mirmehdi e 
Petrou (2000) e Plataniotis e Venetsanopoulos (2000). A 
interação entre as características de imagem e o desem- 
penho da máscara também é um tema de interesse atual, 
como exemplificado por Ziou (2001). Nossa apresentação 
das propriedades de cruzamento por zero do laplaciano 
baseia-se em um trabalho de Marr e Hildredth (1980) e 
no livro de Marr (1982). Veja também um artigo de Clark 
(1989) sobre a autenticação das bordas produzidas por 
algoritmos de cruzamento por zero. [As correções de al- 
guns trechos do artigo de Clark foram feitas por Piech 
(1990)]. Conforme mencionado na Seção 10.2, o cruza- 
mento por zero através do laplaciano de uma gaussiana 
é uma abordagem importante cujo desempenho relativo 
é ainda um tema ativo de pesquisa [Gunn (1998, 1999)]. 
Como o próprio nome sugere, o detector de bordas de 
Canny discutido na Seção 10.2.6 é obra de Canny (1986). 
Para um exemplo do trabalho sobre este assunto vinte 
anos depois, ver Zhang e Rockett (2006) 


A transformada de Hough [Hough (1962)] é um mé- 
todo prático para vincular os pixels globalmente e detec- 
tar as curvas. Várias generalizações da transformada bási- 
ca discutidas neste capítulo foram propostas ao longo dos 
anos. Por exemplo, Lo e Tsai (1995) discutem uma abor- 
dagem para a detecção de linhas grossas, Guil et al. (1995, 
1997) tratam de implementações rápidas da transforma- 
da de Hough e da detecção de curvas primitivas, Daul at 
al. (1998) discutem outras generalizações para a detecção 
de arcos elípticos e Shapiro (1996) trata da aplicação da 
transformada de Hough em imagens em níveis de cinza. 


Como mencionado no início da Seção 10.3, as téc- 
nicas de limiarização desfrutam de um elevado grau de 
popularidade pois são simples de implementar. Não é 
surpreendente que haja um número considerável de tra- 
balhos na literatura sobre este tema. Uma boa apreciação 
da extensão desta literatura pode ser adquirida com os 
documentos de revisão feitos por Sahoo et al. (1988) e 
por Lee et al. (1990). Além das técnicas discutidas nes- 
te capítulo, outras abordagens utilizadas para lidar com 
os efeitos de iluminação e refletância (Seção 10.3.1) são 
ilustradas pelos trabalhos de Perez e Gonzalez (1987), 
Parker (1991), Murase e Nayar (1994), Bischsel (1998), 
Drew et al. (1999) e Toro e Funt (2007). Para uma leitura 
adicional sobre o material na Seção 10.3.2, consulte Jain 
et al. (1995). 


Os primeiros trabalhos de limiarização global ótima 
(Seção 10.3.3) são exemplificados no artigo clássico de 
Chow e Kaneko (1972) (discutiremos este método na 
Seção 12.2.2, no contexto mais geral de reconhecimen- 
to de objetos). Embora sejam ótimas na teoria, as apli- 
cações deste método na limiarização da intensidade são 
limitadas em decorrência da necessidade de estimar as 
funções densidade de probabilidade. A abordagem óti- 
ma que desenvolvemos na Seção 10.3.3, devido a Otsu 
(1979), ganhou muito mais aceitação pois combina exce- 
lente desempenho com simplicidade de implementação, 
precisando apenas de uma dos histogramas das imagens. 
A ideia básica da utilização de pré-processamento (seções 
10.3.4 e 10.3.5) remonta a um antigo documento feito 
por White e Rohrer (1983) que combinou a limiariza- 
ção, o gradiente e o laplaciano na solução de um pro- 
blema de difícil segmentação. É interessante comparar as 
semelhanças fundamentais em termos de capacidade de 
segmentação de imagem entre os métodos discutidos nos 
últimos três artigos e os trabalhos sobre limiarização fei- 
tos quase vinte anos mais tarde por Cheriet et al. (1998), 
Sauvola e Pietikainen (2000), Liang et al. (2000) e Chan 
et al. (2000). Para uma leitura adicional sobre limiariza- 
ção múltipla (Seção 10.3.6), consulte Yin e Chen (1997), 
Liao et al. (2001) e Zahara et al. (2005). Para uma leitura 
adicional sobre limiarização variável (Seção 10.3.7), con- 
sulte Parker (1997). Veja também Delon et al. (2007). 


Veja Fu e Mui (1981), para um levantamento ini- 
cial sobre o tema da segmentação orientada pela região. 
A obra de Haddon e Boyce (1990) e de Pavlidis e Liow 
(1990) está entre os primeiros esforços para integrar as 
informações da região e da fronteira visando à segmen- 
tação. Uma nova abordagem ao crescimento da região 
proposta por Hojjatoleslami e Kittler (1998), também é 
de interesse. Para uma cobertura básica atual dos concei- 
tos de segmentação orientada pela região, veja Shapiro e 
Stockman (2001) e Sonka et al. (1999). 


A segmentação por watershed foi mostrada na Seção 
10.5 como um conceito poderoso. As primeiras referên- 
cias a falarem da segmentação por watershed foram Serra 
(1988), Beucher (1990) e Beucher e Meyer (1992). O ar- 
tigo feito por Baccar et al. (1996) discute a segmentação 
baseada na fusão de dados morfológicos e as watersheds. 
O progresso dez anos depois é evidente em uma edição 
especial da Pattern Recognition (2000), inteiramente de- 
dicada a este tema. Como indicado em nossa discussão 
na Seção 10.5, uma das questões fundamentais com as 
watersheds é o problema da super-segmentação. Os arti- 
gos de Najmanand e Schmitt (1996), Haris et al. (1998) e 
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Bleau e Leon (2000) são ilustrativos das abordagens para 
lidar com este problema. Bieniek e Moga (2000) discu- 
tem um algoritmo de segmentação de watersheds baseado 
em componentes conectados. 


O material na Seção 10.6.1 é de Jain, R. (1981). 
Veja também Jain, Kasturi e Schunck (1995). O mate- 
rial na Seção 10.6.2 é de Rajala, Riddle e Snyder (1983). 
Veja também os trabalhos de Shariat e Price (1990) e de 
Cumani et al. (1991). Os livros de Sonka et al. (1999), 
Shapiro e Stockman (2001), Snyder e Qi (2004) e Davies 
(2005) são leituras adicionais sobre a estimativa de movi- 
mento. Veja também Alexiadis e Sergiadis (2007). 


Exercícios 


*10.1Prove a validade da Equação 10.2-1. (Dica: use uma 
expansão em série de Taylor e mantenha apenas os 
termos lineares). 


*10.2 Uma imagem binária contém linhas retas orientadas 
horizontalmente, verticalmente, a 45º e a -45°. Es- 
tabeleça um conjunto de máscaras 3 x 3 que possam 
ser usadas para detectar interrupções de um pixel 
nessas linhas. Suponha que a intensidade das linhas 


e do fundo seja 1 e 0, respectivamente. 


10.3 Proponha uma técnica para a detecção de falhas de 
tamanhos entre 1 e K pixels em segmentos de linha 
de uma imagem binária. Suponha que as linhas se- 
jam de um pixel de espessura. Baseie sua técnica em 
uma análise de conectividade de oito vizinhos, ao 
invés de tentar construir máscaras para detectar as 
falhas. 


10.4 Consulte a Figura 10.7 para responder às seguintes 
perguntas. 


*(a) Algumas das linhas que unem os preenchimen- 
tos e o elemento central na Figura 10.7(e) são 
linhas simples, enquanto outras são linhas du- 
plas. Explique o porquê. 

(b) Proponha um método para eliminar os compo- 
nentes na Figura 10.7(f) que não fazem parte da 
linha orientada a —45º. 


10.5 Consulte os modelos de borda na Figura 10.8. 


*(a) Suponha que vamos calcular a magnitude do 
gradiente de cada um desses modelos usando os 
operadores de Prewitt da Figura 10.14. Esboce 
como ficaria um perfil horizontal que passa pelo 
centro de cada imagem de gradiente. 


(b) Esboce um perfil horizontal para cada imagem 
em ângulo correspondente. 


(Nota: responda esta pergunta sem gerar as imagens 
em ângulo e de gradiente. Basta fornecer esboços 
dos perfis que mostram o que poderíamos esperar da 
aparência dos perfis de magnitude e das imagens em 
ângulo) 
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*10.7 


10.8 


*10.9 


10.10 


Considere um perfil de intensidade horizontal no 
meio de uma imagem binária que contém uma borda 
em degrau que corre verticalmente através do cen- 
tro da imagem. Desenhe como ficaria o perfil após 
a imagem ter sido borrada por uma máscara de mé- 
dia do tamanho n x n, com coeficientes iguais a 1/1? 
Por simplicidade, suponha que a imagem tenha sido 
ajustada para que seus níveis de intensidade fossem 
O à esquerda da borda e 1 à direita. Além disso, supo- 
nha que o tamanho da máscara seja muito menor do 
que a imagem, de modo que os efeitos no contorno 
da imagem não sejam uma preocupação próximo ao 
centro do perfil de intensidade horizontal. 


Suponha que tivéssemos usado os modelos de borda 
mostrados na figura a seguir, em vez do modelo em 
rampa usado na Figura 10.10. Esboce o gradiente e 
o laplaciano de cada perfil. 


Imagem 


Perfil de uma 
linha horizontal 


Consulte a Figura 10.14 para responder às seguintes 
perguntas. 


(a) Suponha que as máscaras de Sobel sejam usa- 
das para obter g, e 4, Mostre que, neste caso, a 
magnitude do gradiente calculada utilizando as 
equações 10.2-10 e 10.2-20 fornece resultados 
idênticos. 

(b) Mostre que isso é verdade também para as más- 
caras de Prewitt. 


Mostre que as máscaras de Sobel e Prewitt nas fi- 
guras 10.14 e 10.15 oferecem resultados isotrópicos 
apenas para as bordas horizontais e verticais e para 
as bordas orientadas a +45º, respectivamente. 


Os resultados obtidos por uma única passagem de 
algumas máscaras 2-D em uma imagem podem ser 
alcançados também por duas passagens usando más- 
caras de 1-D. Por exemplo, o mesmo resultado de 
usar uma máscara de suavização 3 x 3 com coefi- 
cientes 1/9 pode ser obtido por uma passagem da 
máscara [1 1 1] na imagem. O resultado deste passo 
é seguido por uma passagem da máscara 


10.11 


10.12 


10.13 


O resultado final é, então, dimensionado por 1/9. 
Mostre que a resposta das máscaras de Sobel (Figura 
10.14) pode ser implementada de forma similar por 
uma passagem da máscara de diferencial [- 1 0 1] (ou 
o seu equivalente vertical), seguida pela máscara de 
suavização [1 2 1] (ou o seu equivalente vertical). 


Os operadores de gradiente chamados de “bússola” 
de tamanho 3 x 3 são projetados para medir os gra- 
dientes de bordas orientadas em oito direções: E, NE, 
N, NW.W, SW, Se SE. 


*(a) Mostre o formato destes oito operadores usando 
coeficientes de valor 0, 1 ou -1. 


(b) Especifique a direção do vetor de gradiente de 
cada máscara, tendo em mente que a direção do 
gradiente é ortogonal à direção da borda. 


O retângulo na imagem binária a seguir é de tama- 
nho m x n pixels. 


(a) Como ficaria a magnitude do gradiente desta 
imagem baseada na utilização da aproximação 
dada na Equação 10.2-20? Suponha que g e g 

. . “1 x y 
sejam obtidos utilizando os operadores de Sobel. 
Mostre todas os valores de pixel diferentes e re- 
levantes da imagem de gradiente. 


Esboce o histograma das direções das bordas cal- 
culadas utilizando a Equação 10.2-11. Seja pre- 
ciso na classificação da altura de cada compo- 
nente do histograma. 


(c) Como ficaria o laplaciano desta imagem basea- 
do na aproximação da Equação 10.2-7? Mostre 
todos os valores de pixel diferentes e relevantes 
da imagem laplaciana. 


Suponha que uma imagem f(x, y) seja convoluida 
com uma máscara de tamanho n x n (com coeficien- 
tes 1/7?) para produzir uma imagem suavizada f(x, y). 


*(a) Crie uma expressão para a força da borda (magni- 
tude da borda) da imagem suavizada em função 
do tamanho da máscara. Por questões de pratici- 
dade, suponha que 7 seja ímpar e que as bordas 
sejam obtidas utilizando as derivadas parciais 


Of 10x=f(x+1,7)- f(x,y) e 
of 10y=Ff(x,y+1)-f(x,9). 


(b) Mostre que a relação entre a força máxima da 
borda da imagem suavizada e a força máxima da 
borda da imagem original é de 1/n. Em outras 
palavras, a força da borda é inversamente pro- 
porcional ao tamanho da máscara de suavização. 


10.14 Com referência à Equação 10.2-23: 


*(a) Mostre que o valor médio do laplaciano de um 
operador gaussiano, V2G(x, y), é zero. 

(b) Mostre que o valor médio de qualquer imagem 
convoluída com este operador também é zero. 
(Dica: considere resolver esse exercício no do- 
mínio da frequência, usando o teorema de con- 
volução e o fato de que o valor médio de uma 
função é proporcional à sua transformada de 
Fourier medida na origem.) 


(c) Seria verdadeiro em geral se (1) fosse utilizada 
a máscara da Figura 10.4(a) para calcular o la- 
placiano de um filtro passa-baixa gaussiano uti- 
lizando uma máscara laplaciana de tamanho 3 x 
3, e (2) efetuasse a convolução deste resultado 
com qualquer imagem? Explique. (Dica: consul- 
te o Exercício 3.16). 


10.15 Consulte a Figura 10.22(c). 


(a) Explique porque as bordas formam contornos 
fechados. 
*(b) Será que o método de cruzamento por zero para 
encontrar a localização das bordas sempre resul- 
ta em contornos fechados? Explique. 


10.16 Não é raro encontramos na literatura uma dedução 


do laplaciano de uma gaussiana (LoG), que começa 
com a expressão 


na qual r? = xº + y’. o LoG é, então, encontrado to- 
mando a segunda derivada parcial: 


V2G(r) = &G/dr. Finalmente, x? + y? é substituído 
por 7º para obter o resultado (incorreto) 


V’G(x,y) = [Es +y —0") 10º Jexp|-(x + y’) /20°| 


Derive este resultado e explique a razão da diferença 
entre esta expressão e a Equação 10.2-23. 


10.17 (a) Derive a Equação 10.2-27. 


(b) Considere que k = 0,/0, denote a razão de des- 
vio-padrão discutida em relação à função DoG. 
Expresse a Equação 10.2-27 em termos de ke o,. 


10.18 Suponha que G e fsejam arranjos discretos de tama- 


nho n x ne M x N, respectivamente. 


*(a) Mostre que a convolução 2-D da função gaus- 
siana G(x, y) na Equação 10.2-21 com uma ima- 
gem f(x, y) pode ser expressa como uma convo- 
lução 1-D ao longo das linhas (colunas) de f(x, 
y), seguida por uma convolução 1-D ao longo 
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das colunas (linhas) do resultado. (Veja a Seção 
3.4.2 sobre a convolução discreta.) 


(b) Crie uma expressão para a vantagem computa- 
cional de utilizar o método da convolução 1-D em 
(a) em oposição a efetuar uma convolução 2-D 
diretamente. Assuma que G(x, y) seja amostrada 
para produzir um arranjo matricial de tamanho 
nxne que f(x, y) seja de tamanho M x N. A van- 
tagem computacional é a razão entre o número 
de multiplicações necessárias para a convolução 
2-D e para a convolução 1-D. 


*10.19 (a)Mostre que as etapas 1 e 2 do algoritmo Marr- 


-Hildreth podem ser implementadas usando 
quatro convoluções 1-D. (Dicas: consulte o Exer- 
cício 10.18a e expresse o operador laplaciano 
como a soma das duas derivadas parciais, dadas 
pelas equações 10.2-5 e 10.2-6 e implemente 
cada derivada usando uma máscara 1-D, como 
no Exercício 10.10). 


(b) Derive uma expressão para a vantagem compu- 
tacional de utilizar o método da convolução 1-D 
em (a) em oposição à execução de uma convo- 
lução 2-D diretamente. Assuma que G(x, y) seja 
amostrada para produzir um arranjo matricial 
de tamanho n x ne que f(x, y) seja de tamanho 
Mx N. A vantagem computacional é a razão en- 
tre o número de multiplicações necessárias para 
a convolução 2-D e para a convolução 1-D (ver 
Exercício 10.18). 


10.20 (a)Formule a Etapa 1 e o cálculo da imagem de mag- 


nitude do gradiente na Etapa 2 do algoritmo de 
Canny com convoluções 1-D em vez de 2-D. 


(b) Qual é a vantagem computacional de usar o mé- 
todo da convolução 1-D em oposição à execução 
de uma convolução 2-D? Suponha que o filtro 
gaussiano 2-D na etapa 1 seja amostrado em um 
arranjo de tamanho n x n e a imagem de entra- 
da seja de tamanho M x N. Expresse a vantagem 
computacional como uma razão do número de 
multiplicações requeridas por cada método. 


10.21 Consulte os três modelos de borda vertical e os perfis 


correspondentes na Figura 10.8. 


*(a) Suponha que vamos calcular a magnitude do 
gradiente de cada um dos três modelos de borda 
usando as máscaras de Sobel. Esboce os perfis 
de intensidade horizontal das três imagens de 
gradiente. 


*(b) Esboce os perfis de intensidade horizontal das 
três imagens laplacianas assumindo que o lapla- 
ciano é calculado utilizando a máscara 3 x 3 na 
Figura 10.4(a). 

*(c) Repita o procedimento para uma imagem gera- 
da utilizando apenas as duas primeiras etapas do 
detector de bordas de Marr-Hildreth. 
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*10.23 


10.24 


10.25 


(d) Repita o procedimento para as duas primeiras 
etapas do detector de bordas de Canny. Pode- 
mos ignorar as imagens em ângulo. 


(e) Esboce o perfil horizontal das imagens em ângu- 
lo para o detector de bordas de Canny. 


(Nota: responda a esta pergunta sem gerar as ima- 
gens. Basta fornecer esboços dos perfis que mostram 
o que poderíamos esperar da aparência dos perfis 
das imagens.) 


Consulte a transformada de Hough discutida na Se- 
ção 10.2.7. 


(a) Desenvolva um procedimento geral para a ob- 
tenção da representação normal de uma linha a 
partir do seu formato de interceptação de incli- 
nação, y = ax + b. 

*(b) Encontre a representação normal da linha y = 
-2x + 1. 


Consulte a transformada de Hough discutida na Se- 
ção 10.2.7. 


(a) Explique porque o mapeamento de Hough do 
ponto 1 na Figura 10.33(a) é uma linha reta na 
Figura 10.33(b). 


(b) Este é o único ponto que produziria esse resul- 
tado? Explique. 


(c) Explique a relação de adjacência reflexiva ilus- 
trada, por exemplo, pela curva rotulada Q na 
Figura 10.33(b). 


Mostre que o número de operações necessárias para 
implementar a abordagem de células do acumulador 
discutida na Seção 10.2.7 é linear em n, que é o nú- 
mero de pontos no plano imagem (isto é, o plano xy) 
que não são do fundo. 


Uma importante área de aplicação de técnicas de 
segmentação de imagem está no processamento de 
imagens resultantes dos eventos chamados “câmara 
de bolhas”. Estas imagens surgem a partir de expe- 
riências em física de alta energia em que um feixe 
de partículas de propriedades conhecidas é dirigido 
para um alvo de núcleos conhecidos. Um caso típico 
é nos caminhos de entrada, onde qualquer uma de- 
las, no caso de uma colisão, ramifica-se em caminhos 
secundários de partículas provenientes do ponto de 
colisão. Proponha uma metodologia de segmenta- 
ção para detecção de todos os caminhos que contêm 
pelo menos 100 pixels e estão inclinados em qual- 
quer uma das seguintes direções em relação à linha 
horizontal: +25º, +50º, e +75º. O erro de estimação 
permitido em qualquer uma dessas seis direções é de 
+5°, Para um caminho ser válido, deve ser de pelo 
menos 100 pixels de comprimento e não pode ter 
mais do que três falhas, e nenhuma falha pode ex- 
ceder 10 pixels. Podemos assumir que as imagens fo- 
ram pré-processadas de modo que são binárias e que 
todos os caminhos são de um pixel de largura, exceto 


*10.26 


*10.27 


10.28 


*10.29 


10.30 


10.31 


*10.32 


no ponto de colisão de onde provêm. Seu procedi- 
mento deve ser capaz de diferenciar entre os cami- 
nhos que possuem a mesma direção, mas diferentes 
origens. (Dica: baseie-se na transformada de Hough.) 


Reafirme o algoritmo básico de limiarização global 
na Seção 10.3.2 para que ele use o histograma de 
uma imagem ao invés da própria imagem. 

Prove que o algoritmo básico de limiarização global 
na Seção 10.3.2 converge em um número finito de 
etapas. (Dica: use a formulação de histograma do 
Exercício 10.26). 

Explique por que o limiar inicial no algoritmo bá- 
sico de limiarização global na Seção 10.3.2 deve 
estar entre o valor mínimo e máximo da imagem. 
(Dica: construa um exemplo que mostre o algorit- 
mo definindo um valor de limiar selecionado fora 
deste intervalo) 


O limiar obtido com o algoritmo básico de limiariza- 
ção global na Seção 10.3.2 é independente do ponto 
de partida? Se sua resposta for sim, explique-a. Se 
sua resposta for não, mostre um exemplo. 


Considere em ambos os casos a seguir que o valor do 
limiar durante a iteração está delimitado pelo inter- 
valo aberto (0, L-1). 


*(a) Prove que, se o histograma de uma imagem é 
uniforme em todos os níveis possíveis de inten- 
sidade, o algoritmo básico de limiarização glo- 
bal na Seção 10.3.2 converge para a intensidade 
média da imagem, (L -1)/2. 

(b) Prove que, se o histograma de uma imagem é 
bimodal, com modos idênticos que são simétri- 
cos em relação a suas médias, então o algoritmo 
básico global irá convergir a um ponto interme- 
diário entre as médias dos modos. 


Consulte o algoritmo de limiarização na Seção 
10.3.2. Suponha que em um determinado proble- 
ma o histograma seja bimodal, com modos que são 
curvas gaussianas da forma A exp[-(z - m,)2/207] e 
A,exp[-(z — m,)’/203]. Suponha que m, > m, e que 
o Tinicial estão entre as intensidades máxima e mi- 
nima da imagem. Forneça as condições (em termos 
dos parâmetros dessas curvas) para as hipóteses a 
seguir serem verdadeiras quando o algoritmo con- 
verge: 


(a) O limiar é igual a (m, + m,)/2. 

(b) O limiar está à esquerda de m,. 

(c) O limiar está no intervalo (m, + m, )/2<T< m.. 

Se não for possível que alguma dessas condições 

exista, mostre e explique o porquê. 

(a) Mostre como a primeira linha na Equação 10.3-15 
decorre das equações 10.3-14, 10.3-10, e 10.3-11. 

(b) Mostre como a segunda linha na Equação 10.3-15 

decorre da primeira. 
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Mostre que o valor máximo da Equação 10.3-18 
sempre existe para k no intervalo 0 < k< L-1. 


Em referência à Equação 10.3-20, crie um argumen- 
to que estabeleça que O < n(k) < 1, para k no inter- 
valo [inserir fórmula], em que o mínimo é possível 
apenas por meio de imagens com intensidade cons- 
tante, e o máximo ocorre somente para as imagens 
de dois níveis com valores 0 e L- 1. 


(a)Suponha que as intensidades de uma imagem 
fix, y) estejam no intervalo [0, 1] e que um li- 
miar, T, segmenta apropriadamente a imagem 
em objeto e fundo. Mostre que o limiar T’ = 1 - T 
segmentará com sucesso o negativo de f(x, y) nas 
mesmas regiões. O termo negativo é usado aqui 
no sentido definido na Seção 3.2.1. 


(b) A função de transformação de intensidade em (a) 
que mapeia uma imagem no seu negativo é uma 
função linear com inclinação negativa. Estabeleça 
as condições que uma função de transformação 
de intensidade arbitrária deve satisfazer para que 
a possibilidade de segmentação da imagem origi- 
nal seja mantida em relação a um limiar T. Qual 
seria o valor do limiar após a transformação de 
intensidade? 


Os objetos e o fundo da imagem mostrada têm uma 
intensidade média de 170 e 60, respectivamente, 
em uma escala de [0, 255]. A imagem está corrom- 
pida pelo ruído gaussiano com média O e o desvio 
padrão de 10 níveis de intensidade. Proponha um 
método de limiarização capaz de produzir uma taxa 
de segmentação correta de 90% ou mais. (Lembre- 
se que 99,7% da área de uma gaussiana está em 
um intervalo de +30 em torno da média, sendo o o 
desvio padrão.) 


Consulte a imagem da rampa de intensidade na Fi- 
gura 10.37(b) e o algoritmo de média de movimento 
discutido na Seção 10.3.7. Suponha que a imagem 
seja do tamanho 500 x 700 pixels e que seus valores 
mínimo e máximo sejam 0 e 1, nos quais os Os estão 
contidos apenas na primeira coluna. 


*(a) Qual seria o resultado de segmentar esta ima- 
gem com o algoritmo da média de movimento 
utilizando b = 0 e um valor arbitrário para n? 
Explique como deve ficar a imagem. 


* 
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(b) Agora inverta a direção da rampa de modo que 
seu valor mais à esquerda seja 1 e o valor mais à 
direita seja O e repita (a). 

(c) Repita (a), mascomn=2eb=1. 

(d) Repita (a), mas com n = 100 eb=1. 

Proponha um algoritmo de crescimento da região 

para segmentar a imagem no Exercício 10.36. 


Segmente a imagem mostrada usando o procedi- 
mento de divisão e fusão discutido na Seção 10.4.2. 
Considere que Q(R,) = VERDADEIRO se todos os pi- 
xels em R, tiverem a mesma intensidade. Mostre o 
quadtree correspondente à sua segmentação. 


Considere a região de Is resultante da segmentação 
das regiões espalhadas na imagem da Cygnus Loop no 
Exemplo 10.24. Proponha uma técnica para utilizar 
esta região como uma máscara para isolar os três prin- 
cipais componentes da imagem: (1) fundo (2), região 
interna mais densa e (3) região externa espalhada. 
Consulte a discussão na Seção 10.5.3. 


*(a) Mostre que os elementos de C, (M) e T[n] nun- 
ca são substituídos durante a execução do algo- 
ritmo de segmentação por watershed. 


(b) Mostre que o número de elementos nos conjun- 
tos de € (M) e T[n] aumentam ou permanecem 
os mesmos conforme n aumenta. 

As fronteiras ilustradas na Seção 10.5, obtidas uti- 

lizando o algoritmo de segmentação de watershed 

formam loops fechados (por exemplo, veja as figuras 

10.56 e 10.58). Forneça um argumento que esta- 

beleça se as fronteiras fechadas sempre resultam da 

aplicação deste algoritmo ou não. 


Forneça uma implementação passo a passo do pro- 
cesso de construção de barragens da seção transver- 
sal de intensidade unidimensional mostrada. Mostre 
um desenho da seção transversal em cada etapa, 
mostrando os níveis de “água” e as barragens cons- 
truídas. 
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Como ficaria o negativo da imagem ADI na Figura 
10.59(c) se ela fosse testada com T (em vez dos testes 
com —T) na Equação 10.6-4? 

As seguintes afirmações são verdadeiras ou falsas? 
Explique a razão da sua resposta em cada uma delas. 


*(a) As entradas diferentes de zero na ADI absoluta 
continuam a crescer em dimensão, já que o ob- 
jeto está se movendo. 


(b) As entradas diferentes de zero na ADI positiva 
sempre ocupam a mesma área, independente- 
mente do movimento do objeto. 


(c) As entradas diferentes de zero na ADI negativa 
continuam a crescer em dimensão, já que o ob- 
jeto está se movendo. 


Suponha que no Exemplo 10.28, o movimento ao 
longo do eixo x seja zero. O objeto agora só se move 
ao longo do eixo y em uma taxa de um pixel por 
quadro, para 32 quadros, e depois (instantaneamen- 
te) inverte a direção e se move exatamente na dire- 
ção oposta em outros 32 quadros. Como ficariam as 
figuras 10.63 e 10.64 sob estas condições? 


Ofereça um argumento que demonstre que quando 
os sinais de S, e S, nas equações 10.6-12 e 10.6-13 
são os mesmos, o componente de velocidade V, é 
positivo. 

Uma indústria farmacêutica automatizada utiliza 
processamento de imagens para medir as formas dos 
comprimidos visando ao controle de qualidade. A 
fase de segmentação do sistema é baseada no méto- 
do de Otsu. A velocidade das linhas de inspeção é tão 
alta que uma iluminação de flash de alta velocidade 
é necessária para “parar” o movimento. Quando são 
novas, as lâmpadas de iluminação projetam um pa- 
drão uniforme de luz. No entanto, conforme as luzes 
vão ficando velhas, o padrão de iluminação deterio- 
ra-se em função do tempo e do espaço de acordo 
com a equação 


i(x,y) = A(t) — A 


na qual (M/2, N/2) é o centro da área de visualização 
e té o tempo medido em incrementos de meses. As 
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lâmpadas são experimentais e o comportamento de 
A(t) não é totalmente compreendido pelo fabrican- 
te. Tudo o que se sabe é que, durante a vida útil das 
lâmpadas, A(t) é sempre maior do que o componen- 
te negativo na equação, pois a iluminação não pode 
ser negativa. Foi observado que o algoritmo de Otsu 
funciona bem quando as luzes são novas e seu pa- 
drão de iluminação é quase constante ao longo de 
toda a imagem. No entanto, o desempenho da seg- 
mentação piora com o tempo. Sendo experimentais, 
as lâmpadas são extremamente caras, por isso você 
foi contratado como consultor para ajudar a resolver 
o problema computacionalmente e, assim, prolon- 
gar a vida útil das lâmpadas. Você tem a flexibilidade 
de instalar quaisquer marcadores especiais ou outras 
indicações visuais próximo às bordas da área de vi- 
sualização das câmeras de imagem. Proponha uma 
solução com detalhes suficientes para que o gerente 
de engenharia possa compreender sua abordagem. 
(Dica: veja o modelo de imagem discutido na Seção 
2.3.4 e considere o uso de um pequeno alvo de re- 
fletividade conhecida.) 


A velocidade de uma bala em voo deve ser estima- 
da usando técnicas de aquisição de imagem em alta 
velocidade. O método padrão envolve o uso de uma 
câmera de TV e um flash que expõe a cena por K 
segundos. A bala é de 2,5 cm de comprimento e 1 
cm de largura e seu intervalo de velocidade é de 750 
+ 250 m/s. A óptica da câmera produz uma imagem 
na qual a bala ocupa 10% da resolução horizontal de 
uma imagem digital de 256 x 256 pixels. 


*(a) Determine o valor máximo de K que irá garantir 
que o borramento pelo movimento não ultra- 
passe um pixel. 

(b) Determine o número mínimo de quadros por 
segundo que devem ser adquiridos de forma a 
garantir que pelo menos duas imagens comple- 
tas da bala sejam obtidas durante o seu percurso 
através do campo de visão da câmera. 


(c) Proponha um processo de segmentação para ex- 
trair automaticamente a bala de uma sequência 
de quadros. 


(d) Proponha um método para determinar automa- 
ticamente a velocidade da bala. 


Capítulo 


1 1 Representação e 


descrição 


Bem, mas reflita; não temos nós reconhecido diversas vezes que os nomes dados 
corretamente são as aparências e as imagens das coisas que eles nomeiam? 


Sócrates 


Apresentação 


Depois de ter segmentado uma imagem em regiões usando métodos como os discutidos no Capítulo 10, o agre- 
gado de pixels segmentados resultante em geral é representado e descrito de forma adequada para o futuro 
processamento computacional. Basicamente, representar uma região envolve duas opções: (1) podemos 
representá-la em termos de suas características externas (sua fronteira) ou (2) em termos de suas caracte- 
rísticas internas (os pixels que constituem a região). Escolher um esquema de representação, no entanto, é 
apenas parte da tarefa de tornar os dados úteis para um computador. A próxima tarefa é descrever a região 
com base na representação escolhida. Por exemplo, uma região pode ser representada pela sua fronteira e 
esta pode ser descrita por características como a sua extensão, a orientação da linha reta que une seus pontos 


extremos e o número de concavidades na fronteira. 


Uma representação externa é escolhida quando o foco principal está nas características da forma. Uma 
representação interna é selecionada quando o foco principal está nas propriedades regionais, como cor 
e textura. Às vezes, pode ser necessário usar os dois tipos de representação. Em ambos os casos, as ca- 
racterísticas selecionadas como descritores devem ser tão insensíveis quanto for possível às variações de 
tamanho, translação e rotação. Na maioria dos casos, os descritores discutidos neste capítulo satisfazem 


uma ou mais dessas propriedades. 


11.1 Representação 


As técnicas de segmentação discutidas no Capítulo 
10 produzem dados primários em forma de pixels ao lon- 
go de uma fronteira ou pixels contidos em uma região. 
É prática comum utilizar esquemas que compactam os 
dados segmentados em representações que facilitam o 
cálculo dos descritores. Nesta seção, discutiremos várias 
abordagens de representação. 


11.1.1 Seguidor de fronteira (contorno) 


Vários dos algoritmos discutidos neste capítulo exi- 
gem que os pontos na fronteira de uma região estejam 
ordenados em sentido horário (ou anti-horário). Come- 
caremos então nossa discussão introduzindo um algorit- 
mo seguidor de fronteira cuja saída é uma sequência orde- 
nada de pontos. Assumimos (1) que estamos trabalhando 
com imagens binárias em que os pontos do objeto e do 


* Será útil rever as seções 2.5.2 e 9.5.3 antes de prosseguir. 
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fundo estão marcados com 1 e 0, respectivamente, e (2) 
que as imagens foram preenchidas com uma fronteira de 
Os para eliminar a possibilidade de um objeto se fundir 
com a borda da imagem. Por conveniência, podemos li- 
mitar a discussão para as regiões simples. A abordagem 
pode se estender a múltiplas regiões desconexas pelo pro- 
cessamento individual de cada uma. 


Dada uma região binária R ou sua fronteira, um al- 
goritmo para seguir a fronteira de R, ou qualquer frontei- 
ra, consiste das seguintes etapas: 


1. Considere que o ponto de partida, b, seja o ponto 
mais alto e mais à esquerda” na imagem que esteja ro- 
tulada com valor 1. Denote por c o vizinho a oeste 
de b, (veja a Figura 11.1(b)). Claramente, c sempre 
é um ponto do fundo. Examine os vizinhos-8 de b, 
a partir de c, seguindo no sentido horário. Seja b, 
o primeiro vizinho encontrado cujo valor é 1 e seja 
c, o ponto (de fundo) imediatamente anterior a b, 
na sequência. Conserve a localização de b, e b, para 
utilizá-la na Etapa 5. 


2. Considere que b= b, e c= c, [veja a Figura 11.1(c)]. 
3. Faça com que os vizinhos-8 de b, a partir de ce se- 


guindo no sentido horário, sejam indicados por n., 


N,, ..., Ng. Encontre o primeiro n, rotulado com 1. 


4. Considere queb=n,ec=n,... 
5. Repita as etapas 3 e 4 até que b = b, e o próximo pon- 
to de fronteira encontrado seja b,. A sequência de 
pontos b encontrados quando o algoritmo para cons- 


titui o conjunto de pontos de fronteira ordenados. 


Note que c, na Etapa 4, é sempre um ponto de fun- 
do porque n, é o primeiro ponto com valor 1 encontrado 
na varredura feita em sentido horário. Esse algoritmo às 
vezes é chamado de algoritmo de rastreamento de fronteira de 
Moore em virtude do trabalho de Moore (1968). A regra 
de parada na Etapa 5 do algoritmo com frequência é de- 
finida de modo incorreto na literatura como uma parada 
na primeira vez que b, é encontrado novamente. Como 
você verá em breve, isso pode levar a resultados errados. 


A Figura 11.1 mostra os primeiros passos do algorit- 
mo seguidor de fronteira discutido agora. Pode-se verificar 
facilmente que continuar com esse procedimento produ- 
zirá a fronteira correta da Figura 11.1(e), cujos pontos 
são uma sequência ordenada no sentido horário. 


Para analisar a necessidade da regra de parada 
como indicado na Etapa 5 do algoritmo, considere a fron- 
teira na Figura 11.2. O segmento na parte superior da 
fronteira pode surgir, por exemplo, de uma remoção in- 
completa dos componentes parasitas (veja a Seção 9.5.8 
sobre componentes parasitas). Começar no ponto mais 
alto e mais à esquerda produz as etapas mostradas. Ve- 
mos, na Figura 11.2(c), que o algoritmo voltou ao pon- 
to de partida. Se o procedimento foi parado porque 
chegamos ao ponto de partida novamente, é evidente 
que o resto da fronteira não será encontrado. Usando 
a regra de parada na Etapa 5, o algoritmo pode conti- 
nuar, e é simples mostrar que toda a fronteira na Figura 
11.2 seria encontrada. 


O algoritmo seguidor de fronteira funciona igual- 
mente bem se a região, em vez de sua fronteira (como 
nas ilustrações precedentes), for fornecida. Ou seja, o 
procedimento extrai a fronteira externa de uma região bi- 
nária. Se o objetivo é encontrar as fronteiras dos buracos 
em uma região (estes são chamados de fronteiras internas 
da região), uma abordagem simples é extrair os buracos 
(veja a Seção 9.5.9) e tratá-los como regiões de valor 1 
em um fundo de 0s. Aplicar o algoritmo seguidor de fron- 
teira nessas regiões leva à identificação das fronteiras in- 
ternas da região original. 


Poderíamos ter estabelecido o algoritmo com a mes- 
ma facilidade se o seguidor de fronteira fosse aplicado 
considerando o sentido anti-horário. Na verdade, você 
vai encontrar algoritmos formulados sobre a ideia de que 
os pontos de fronteira são ordenados nessa direção. Usa- 
mos ambas as direções indistintamente (mas de forma 
consistente) nas seções a seguir para ajudar o leitor a se 
familiarizar com ambas as abordagens. 
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Figura 11.1 


Ilustração dos primeiros passos do algoritmo seguidor de 


ronteira. O ponto a ser processado a seguir é indicado em preto, os 


pontos que ainda serão processados são cinza e os pontos encontrados pelo algoritmo são indicados como quadrados cinza. 


Como você verá mais adiante neste capítulo, o ponto mais alto e mais à esquerda em uma fronteira tem a propriedade importante de 
que uma aproximação poligonal dessa fronteira tem um vértice convexo naquele local. Além disso, os vizinhos à esquerda e ao norte do 
ponto são seguramente pontos do fundo. Estas propriedades criam um bom ponto “padrão”, a partir do qual podem começar os algoritmos 


seguidores de fronteira. 


Q 


Figura 11.2 Ilustração de um resultado errôneo quando a regra de 
parada está configurada de tal forma que o seguidor de fronteira para 
quando o ponto de partida, b,, é encontrado novamente. 


11.1.2 Códigos da cadeia 


Os códigos da cadeia (chain codes) são usados para 
representar uma fronteira por uma sequência conectada 
de segmentos de linhas retas de comprimento e direção 
específicos. Normalmente, esta representação baseia-se 
na conectividade 4 ou 8 dos segmentos. A direção de cada 
segmento é codificada usando um esquema de numera- 
ção, como na Figura 11.3. Um código de fronteira for- 
mado como uma sequência desses números direcionais é 
chamado de código da cadeia de Freeman. 


As imagens digitais geralmente são obtidas e pro- 
cessadas no formato de uma grade com um espaçamento 
igual nas direções x e y; portanto, um código da cadeia 
pode ser gerado seguindo uma fronteira, por exemplo, 
em sentido horário, e atribuindo uma direção para os 
segmentos que conectam cada par de pixels. Esse método 
geralmente é inaceitável por dois motivos principais: (1) 
a cadeia resultante tende a ser bastante longa; e (2) as 
pequenas alterações ao longo da fronteira causadas por 
ruído ou por segmentação imperfeita causam alterações 
no código que podem não estar relacionadas com as prin- 
cipais características de forma da fronteira. 


Uma metodologia frequentemente usada para con- 
tornar esses problemas consiste na reamostragem da 
fronteira, selecionando uma grade com espaçamento, 
como mostra a Figura 11.4(a). Então, conforme a fron- 
teira é percorrida, um ponto na fronteira é atribuído a 
cada nó da grade maior, em função da proximidade da 
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Figura 11.3 Números de direção para (a) código da cadeia de qua- 
tro direções; e (b) código da cadeia de oito direções. 


fronteira original para esse nó, como mostra a Figura 
11.4(b). A fronteira reamostrada obtida dessa forma pode 
ser representada por um código de quatro ou de oito di- 
reções. A Figura 11.4(c) mostra os pontos aproximados 
de uma fronteira representados por um código da cadeia de 
oito direções. Converter um código de oito direções para 
um código de quatro e vice-versa é uma questão simples, 
(veja os exercícios 2.12 e 2.13). O ponto de partida na Fi- 
gura 11.4(c) é (arbitrariamente) o ponto mais alto e mais 
à esquerda da fronteira, o que produz o código da cadeia 
0766... 12. Como era de esperar, a exatidão da represen- 
tação do código resultante depende do espaçamento da 
grade de amostragem. 


O código da cadeia de uma fronteira depende do pon- 
to inicial. No entanto, o código pode ser normalizado com 
relação ao ponto de partida usando um procedimento 
simples: nós simplesmente tratamos o código da cadeia 
como uma sequência circular de números que represen- 
tam a direção e redefinimos o ponto de partida para que 
a sequência resultante dos números forme um inteiro de 
magnitude mínima. Nós também podemos normalizar a 
rotação (em ângulos que sejam múltiplos inteiros das di- 
reções na Figura 11.3), utilizando a primeira diferença do 
código da cadeia no lugar do próprio código em si. Essa 
diferença é obtida pela contagem do número de mudan- 
ças de direção (considerando o sentido anti-horário na 
Figura 11.3) que separam dois elementos adjacentes do 
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Figura 11.4 
código da cadeia de oito direções. 


(a) Fronteira digital com a grade de reamostragem sobreposta. (b) Resultado da reamostragem. (c) Fronteira codificada utilizando 
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código. Por exemplo, a primeira diferença do código da 
cadeia de quatro direções 10103322 é 3133030. Se tra- 
tarmos o código como uma sequência circular para ser 
normalizado em relação ao ponto de partida, então o pri- 
meiro elemento da diferença é calculado considerando 
a transição entre o primeiro e o último componente da 
cadeia. Aqui, o resultado é 33133030. A normalização 
do tamanho pode ser feita alterando o tamanho da grade de 
reamostragem. 


Essas normalizações serão exatas somente se 
as próprias fronteiras forem invariantes à rotação (de 
novo, em ângulos que são múltiplos inteiros das dire- 
ções na Figura 11.3) e a mudança de escala, o que rara- 
mente acontece na prática. Por exemplo, o mesmo obje- 
to digitalizado em duas orientações diferentes em geral 
apresentará formas diferentes de fronteira, com o grau 
de dissimilaridade proporcional à resolução da imagem. 
Esse efeito pode ser reduzido selecionando os elementos 
da cadeia que são longos em proporção à distância en- 
tre os pixels da imagem digitalizada e/ou orientando a 
grade de reamostragem ao longo dos eixos principais do 
objeto a ser codificado, como discutido na Seção 11.2.2, 
ou ao longo de seus autoeixos (eigen axis), como discu- 
tido na Seção 11.4. 


Figura 11.5 


Exemplo 11.1 Código da cadeia de Freeman e algumas 


de suas variações. 


A Figura 11.5(a) mostra uma imagem em níveis de 
cinza de 8 bits, 570 x 570, de um círculo traçado sobre pe- 
quenos fragmentos brilhantes. O objetivo deste exemplo 
é obter o código da cadeia de Freeman, o número inteiro 
de magnitude mínima e a primeira diferença da fronteira 
externa do maior objeto na Figura 11.5(a). Já que o obje- 
to de interesse está embutido sobre pequenos fragmentos, 
extrair sua fronteira resultará em uma curva ruidosa que 
pode não descrever apropriadamente a forma geral do obje- 
to. A suavização é um processo de rotina quando se trabalha 
com fronteiras ruidosas. A Figura 11.5(b) mostra a imagem 
original suavizada com uma máscara de média de tamanho 
9 x 9, e a Figura 11.5(c) é o resultado da limiarização dessa 
imagem com um limiar global obtido usando o método de 
Otsu. Note que o número de regiões foi reduzido para dois 
(um dos quais é um ponto), simplificando significativamen- 
te o problema. 


A Figura 11.5(d) é a borda externa da maior região 
na Figura 11.5(c). Obter o código da cadeia desta fronteira 
resultaria diretamente em uma longa sequência com peque- 
nas variações que não são representativas do formato da 
fronteira. Como já mencionado nesta seção, é habitual fazer 
uma reamostragem da fronteira antes de obter seu código da 
cadeia, a fim de reduzir a variabilidade. A Figura 11.5(e) é o 
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(a) Imagem ruidosa. (b) Imagem suavizada com uma máscara de média 9 x 9. (c) Imagem suavizada após a limiarização utilizando 


o método de Otsu. (d) Borda maior externa de (c). (e) Fronteira subamostrada (os pontos são mostrados ampliados para maior clareza). (f) Pontos 


conectados a partir de (e). 


resultado da reamostragem da fronteira em uma grade com 
nós espaçados de 50 pixels de distância (aproximadamente 
10% da largura da imagem) e a Figura 11.5(f) é o resultado 
de juntar os vértices resultantes com linhas retas. Esta sim- 
ples aproximação manteve as principais características da 
fronteira original. 


O código da cadeia de Freeman de oito direções da 
fronteira simplificada é 


00006066666666444444242222202202 


O ponto de partida da fronteira esta nas coordenadas 
(2,5) na grade subamostrada. Este é o ponto mais alto e mais 
à esquerda na Figura 11.5(f). O inteiro de magnitude míni- 
ma do código, neste caso, é o mesmo que o código da cadeia: 


00006066666666444444242222202202 


A primeira diferença para qualquer um dos códigos é 


00062600000006000006260000620626 


Usar qualquer um desses códigos para representar a 
fronteira provoca uma redução significativa na quantidade 
de dados necessários para armazenar a fronteira. Além dis- 
so, trabalhar com números de código oferece uma manei- 
ra unificada de analisar o formato de uma fronteira, como 
já discutimos na Seção 11.2. Finalmente, lembre-se de que 
a fronteira subamostrada pode ser recuperada a partir de 
qualquer um dos códigos anteriores. 

E 


11.1.3 Aproximações poligonais utilizando 
polígonos de perímetro mínimo 
Uma fronteira digital pode ser aproximada com 
uma precisão arbitrária usando um polígono. Para uma 
fronteira fechada, a aproximação torna-se exata quando 
o número de segmentos do polígono é igual ao número 
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de pontos na fronteira, de modo que cada par de pontos 
adjacentes define um segmento do polígono. O objetivo 
de uma aproximação poligonal é capturar a essência do 
formato em uma dada fronteira usando o menor núme- 
ro possível de segmentos. Esse problema em geral não 
é trivial e pode se transformar em uma busca constante 
e demorada. No entanto, as técnicas de aproximação de 
complexidade média são adequadas para tarefas de pro- 
cessamento de imagem. Entre elas, uma das mais pode- 
rosas é a que representa a fronteira por um polígono de 
perímetro mínimo (MPP, de minimum-perimeter polygon), tal 
como definido na discussão a seguir. 


Fundamentação 


Uma abordagem muito atrativa para a geração de 
um algoritmo para calcular os MPPs é cercar uma frontei- 
ra (Figura 11.6(a)) com um conjunto de células concate- 
nadas, como na Figura 11.6(b). Imagine a fronteira como 
um elástico. Se permitirmos que o elástico encolha, ele 
encontrará seus limites nas paredes interiores e exteriores 
da região delimitadora definida pelas células. Finalmente, 
este encolhimento produz a forma de um polígono de pe- 
rímetro mínimo (com relação a esse arranjo geométrico) 
que circunscreve a região delimitada pela faixa de células, 
como mostra a Figura 11.6(c). Observe, nesta figura, que 
todos os vértices do MPP coincidem com os cantos tanto 
da parede externa como da interna. 


O tamanho das células determina a precisão da 
aproximação poligonal. No limite, se o tamanho de cada 
célula (quadrada) corresponde a um pixel na fronteira, 
o erro em cada célula entre a fronteira e a aproximação 
do MPP seria, no máximo, de 24, em que d é a distân- 
cia mínima possível entre os pixels (ou seja, a distância 
entre pixels estabelecida pela resolução da fronteira ori- 


a b ¢ 
| 
Figura 11.6 (a) Fronteira de um objeto (curva preta). (b) Fronteira cercada por células (em cinza). (c) Polígono de perímetro mínimo obtido 
quando é permitido que a fronteira se encolha. Os vértices do polígono são criados pelos cantos das paredes internas e externas da região cinza. 
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ginal amostrada). Esse erro pode ser reduzido pela me- 
tade obrigando cada célula na aproximação poligonal a 
se alinhar com o centro de seu pixel correspondente na 
fronteira original. O objetivo é usar o maior tamanho 
de célula possível que uma determinada aplicação possa 
aceitar, produzindo, então, MPPs com o menor núme- 
ro de vértices. Nosso objetivo nesta seção é formular um 
procedimento para encontrar estes vértices do MPP. 


A abordagem utilizando células descrita previamen- 
te reduz o formato do objeto englobado pela fronteira ori- 
ginal para a área circunscrita pela parede cinza na Figura 
11.6(b). A Figura 11.7(a) mostra esse formato em cinza- 
-escuro. Vemos que sua fronteira consiste de segmentos 
de linha reta 4-conectados. Suponha que percorremos 
essa fronteira no sentido anti-horário. Em cada etapa, en- 
quanto a fronteira é percorrida, é encontrado um vértice 
convexo ou côncavo, e o ângulo de um vértice é um ângulo 
interno de uma fronteira 4-conectada. Os vértices conve- 
xos e côncavos são mostrados, respectivamente, como 
pontos brancos e pretos na Figura 11.7(b)." Observe que 
esses são os vértices da parede interna da região delimi- 
tada em cinza-claro na Figura 11.7(b) e que cada vértice 
côncavo (preto) na região cinza-escura tem um vértice “es- 
pelho” correspondente na parede cinza-clara, localizado 
na diagonal oposta ao vértice. A Figura 11.7(c) mostra 
os espelhos de todos os vértices côncavos, com o MPP da 
Figura 11.6(c) sobreposto como referência. Vemos que os 


vértices do MPP coincidem ou com os vértices convexos 
na parede interna (pontos brancos) ou com os espelhos 
dos vértices côncavos (pontos pretos) na parede externa. 
Uma análise rápida revelará que somente os vértices con- 
vexos da parede interna e os vértices côncavos da parede 
externa podem ser vértices do MPP. Assim, nosso algorit- 
mo deve se concentrar apenas nesses vértices. 


Algoritmo MPP 


O conjunto de células que delimitam uma frontei- 
ra digital, descritos nos parágrafos anteriores, é chamado 
de complexo celular. Assumimos que essas fronteiras não 
apresentam autointerseção, o que leva a complexos celu- 
lares simplesmente conectados. Com base nesses pressupos- 
tos e deixando que branco (B) e preto (P) denotem vértices 
convexos e vértices côncavos espelhados, respectivamente, 
podemos fazer as seguintes afirmações: 


1. O MPP delimitado por um complexo celular sim- 
plesmente conectado não apresenta autointerseção. 


2. Todo vértice convexo do MPP é um vértice B, mas 
nem todo vértice B de uma fronteira é um vértice 
do MPP. 


3. Todo vértice côncavo espelhado do MPP é um vértice 
P, mas nem todo vértice P de uma fronteira é um 
vértice do MPP. 


4. Todos os vértices P estão no MPP ou fora dele e to- 
dos os vértices B estão no MPP ou dentro dele. 


Figura 11.7 (a) Região (cinza-escura) resultante após englobar a fronteira original com as células (veja a Figura 11.6). (b) Vértices convexos 


(pontos brancos) e côncavos (pontos pretos) obtidos seguindo a fron 


teira da região cinza-escura no sentido anti-horário. (c) Vértices côncavos 


(pontos pretos) deslocados para suas localizações diagonais em espelho na parede externa da região delimitada; os vértices convexos não foram 


alterados. O MPP (fronteira preta) é sobreposto como referência. 


* Um vértice convexo é o ponto central de um trio de pontos que definem um ângulo na faixa de 0° < 6 < 180º; do mesmo modo, os ân- 
gulos de um vértice côncavo estão no intervalo 180º < 6 < 360°. Um ângulo de 180º define um vértice degenerado (uma linha reta) que 
não pode ser um vértice do MPP. Ângulos iguais a 0º ou 360º fazem com que seja necessário refazer o caminho, uma condição inválida 


nesta discussão. 


5. O vértice mais alto e mais à esquerda em uma se- 
quência de vértices contidos em um complexo celu- 
lar é sempre um vértice B do MPP. 


Estas afirmações podem ser provadas formalmente 
[Sklansky et al. (1972); Sloboda et al. (1998); Klette e 
Rosenfeld (2004)]. No entanto, sua validade é evidente 
para os nossos propósitos (Figura 11.7), por isso não mos- 
traremos aqui sua comprovação. Ao contrário dos ângu- 
los dos vértices da região cinza-escura na Figura 11.7, os 
ângulos sustentados pelos vértices do MPP não são neces- 
sariamente múltiplos de 90º. 


Na discussão que se segue, teremos de calcular a 
orientação dos trios de pontos. Considere o trio de pon- 
tos, (a, b, c), e que as coordenadas desses pontos são a = 


(x, y) b = (x, y) ec= (x, y,). Se arranjarmos esses 
pontos como as linhas da matriz 
x y, 1 
A=|x, y 1 
x% J À (11.1-1) 


teremos, a partir da análise elementar de matrizes, que 


>0 se (a, b,c) é uma sequência 
no sentido anti-horário 

se os pontos são colineares 
<0 se (a, b, c) é uma sequência 


no sentido horário 
(11.1-2) 


sendo que det(A) é o determinante de A. Considerando 
essa equação, o movimento no sentido anti-horário ou 
horário é em relação a um sistema de coordenadas destro 
(veja o rodapé na Seção 2.4.2). Por exemplo, utilizando 
este sistema de coordenadas de imagem (Figura 2.18), 
em que a origem está no canto superior esquerdo, o eixo 
x positivo se estende verticalmente para baixo e o eixo y 
positivo se estende horizontalmente para a direita, a se- 
quéncia a = (3, 4), b = (2, 3) e c= (3, 2) está no sentido 
anti-horário e daria um det(A) > 0, quando substituí- 
da na Equação 11.1-2. É razoavelmente conveniente na 
hora de descrever o algoritmo definir 


sinal(a, b, c) = det(A) (11.1-3) 


de modo que sinal(a, b, c) > 0 para uma sequência anti- 
-horária, sinal(a, b, c) < 0 para uma sequência no sen- 


Considerando o sistema de coordenadas definido na Figura 
2.18(b), quando se percorre a fronteira de um polígono em senti- 
do anti-horário, todos os pontos à direita da direção do caminho 
percorrido estão fora do polígono. Todos os pontos à esquerda da 
direção do caminho estão dentro do polígono. 
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tido horário e sinal(a, b, c) = 0 quando os pontos são 
colineares. Geometricamente, sinal(a, b, c) > 0 indica 
que o ponto c está no lado positivo do par (a, b) (isto é, 
c está do lado positivo da linha que passa pelos pontos 
aeb). Se sinal(a, b, c) < 0, o ponto c está do lado negati- 
vo dessa linha. As equações 11.1-2 e 11.1-3 dão o mes- 
mo resultado se a sequência (c, a, b) ou (b, c, a) for usada, 
porque a direção do caminho na sequência é o mesmo 
para (a, b, c). No entanto, a interpretação geométrica é 
diferente. Por exemplo, sinal(c, a, b) > O indica que o 
ponto b está do lado positivo da linha que passa através 
dos pontos ce a. 


Para preparar os dados para o algoritmo MPP, for- 
mamos uma lista cujas linhas são as coordenadas de cada 
vértice e um elemento adicional que indica se o vértice 
é Bou P. É importante que os vértices côncavos sejam 
espelhados, como na Figura 11.7(c), que os vértices este- 
jam em ordem sequencial” e que o primeiro vértice seja 
o vértice mais alto e mais à esquerda, que, como já vimos 
na propriedade 5, deve ser um vértice B do MPP. Consi- 
dere que V, denote este vértice. Assumimos que os vérti- 
ces estão dispostos no sentido anti-horário. O algoritmo 
para encontrar os MPPs usa dois pontos “rastreadores”: 
um rastreador branco (B,) e um preto (P,). B, rastreia ao 
longo dos vértices convexos (B) e P rastreia ao longo dos 
vértices côncavos espelhados (P). Estes dois pontos ras- 
treadores, o último vértice do MPP encontrado e o vértice 
que está sendo examinado, são tudo o que precisamos 
para aplicar o procedimento. 


O algoritmo começa definindo B, = P, = V, (lem- 
bre que V, é um vértice do MPP). Então, em qualquer 
etapa do algoritmo, V, deve denotar o último vértice do 
MPP encontrado e V, deve denotar o vértice atual que 
está sendo examinado. Uma de três condições pode exis- 
tir entre V,, V, e os dois pontos rastreadores: 


(a) V, está do lado positivo da linha que passa através 
do par (V,, B,); ou seja, sinal(V,, By V,) > 0. 

(b) V, está do lado negativo da linha que passa atra- 
vés do par (V,, B,) ou é colinear com ele; ou seja, 
sinal(V,, B, V< 0. Ao mesmo tempo, V, fica no 
lado positivo da linha que passa através de (V,, P,) 
ou é colinear com ele; isto é, sinal(V,, P,, V,)= 0. 


(c) V, esta do lado negativo da linha que passa através 
do par (V,, P,); isto é, sinal(V,, P,, V,) < 0. 


“ Os vértices de uma fronteira podem ser ordenados rastreando a 
fronteira utilizando, por exemplo, o algoritmo descrito na Seção 
LLLI, 
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Se a condição (a) é verdadeira, o próximo vértice 
do MPP é B,, e fazemos V, = B,; então reinicializamos o 
algoritmo definindo que B, = P, = V, e continuamos com 
o próximo vértice depois de V,. 

Se a condição (b) é verdadeira, V, torna-se um can- 
didato a vértice do MPP. Neste caso, definimos B, = V, se 
V, é convexo (ou seja, é um vértice B); caso contrário, 
fazemos P, = V,. Depois, continuamos com o próximo 
vértice da lista. 


Se a condição (c) é verdadeira, o próximo vértice 
do MPP é P,, e fazemos V, = Py então reinicializamos o 
algoritmo definindo que B, =P, = V, e continuamos com 
o próximo vértice depois de V,. 

O algoritmo termina quando ele atinge o primeiro 
vértice novamente, e nesse momento sabemos que todos 
os vértices do polígono foram processados. Os vértices V, 
encontrados pelo algoritmo são os vértices do MPP. Ficou 
comprovado que este algoritmo encontra todos os vérti- 
ces do MPP de um polígono delimitado por um complexo 
celular simplesmente conectado [Sloboda et al. (1998); 
Klette e Rosenfeld (2004)]. 


Exemplo 11.2 Ilustração do algoritmo MPP. 


Um exemplo manual vai ajudar a esclarecer os concei- 
tos anteriores. Considere os vértices da Figura 11.7(c). Em 
nosso sistema de coordenadas de imagem, o ponto superior 
esquerdo da grade está nas coordenadas (0, 0). Partindo do 
princípio de que as divisões da grade são unitárias, as primei- 
ras linhas da lista de vértices (no sentido anti-horário) são: 


V, (1,4) B 
V, (2,3) 

V, (3,3) B 
V, (32) P 
V, (41) B 
V, (7,1) B 
V, (8,2) P 
V, (9,2) P 


O primeiro elemento da lista é sempre nosso primeiro 
MPP; então, começamos fazendo B, = P= V, = V, = (1, 4). 
O vértice seguinte é V, = (2, 3). Calcular a função sinal dá 
sinal(V,, By V,) = 0 esinal(V, Py V,) = 0, então a condição 
(b) é verdadeira. Fazemos P, = V, = (2, 3) porque V, é um 
vértice P (côncavo). B, continua sem alterações. Nesse está- 
gio, o rastreador B, está em (1, 4), o rastreador P, está em 
(2,3) e V, ainda está em (1, 4), já que nenhum novo vértice 
do MPP foi encontrado. 

Em seguida, examinamos V, = (3, 3). Os valores da 
função sinal são: sinal(V,, By V,) = 0 e sinal(V,, Py V) = L, 


então a condição (b) do algoritmo é verdadeira novamente. 
Como V, é um vértice B (convexo), fazemos B, = V, = (3, 3). 
Nesse estágio, os rastreadores estão em B, = (3, 3) e P, = 
(2, 3); V, permanece inalterado. 


O vértice seguinte é V, = (3, 2). Os valores da função 
sinal sao sinal(V,, B, V,) = -2 e sinal(V,, Py V,) = 0, então a 
condição (b) é verdadeira novamente. Já que V, é um vérti- 
ce P, atualizamos o rastreador preto, P, = (3, 2). O rastrea- 
dor B, permanece inalterado, assim como o V,. 

O vértice seguinte é V,= (4, 1) e temos sinal(V,, B, V,) = 
-3 e sinal(V,, P,, V,) = 0, então a condição (b) é verdadeira 
novamente. Como V, é um vértice branco, atualizamos o 
rastreador branco, B, = (4, 1). O rastreador preto B, man- 
tém-se em (3, 2), e V, ainda está de volta em (1, 4). 

O vértice seguinte é V, = (7, 1) e sinal(V,, By V;) = 9, 
então a condição (a) é verdadeira, e fazemos V, = B, = (4, 1). 
Já que um novo vértice do MPP foi encontrado, reinicia- 
lizamos o algoritmo definindo B, = P, = V, e começamos 
de novo, com o próximo vértice sendo o vértice após o V, 
recém-encontrado. O próximo vértice é o V,, por isso nós o 
analisamos novamente. 


Com V, = (7, 1) e os novos valores de V, By e Py 
obtemos sinal(V,, By V,) = 0 e sinal(V,, Py V,) = 0, então a 
condição (b) é verdadeira. Por conseguinte, fazemos B, = V, = 
(7, 1), porque V, é um vértice B. 

O próximo vértice é V, = (8, 2) e sinal(V,, By V) = 3, 
então a condição (a) é verdadeira. Assim, fazemos V, = B, = 
(7, 1) e reinicializamos o algoritmo definindo B, = P, = V,- 

Por causa da reinicialização em (7, 1), o próximo vér- 
tice considerado é novamente o V, = (8, 2). Continuando 
como antes com este e com os vértices restantes, obtemos 
os vértices do MPP na Figura 11.7(c). Como mencionado 
anteriormente, os vértices espelhados P em (2, 3), (3,2) e 
na parte inferior direita de (13, 10), enquanto estiverem na 
fronteira do MPP, são colineares e, portanto, não são consi- 
derados vértices do MPP. Apropriadamente, o algoritmo não 
os detectou como tal. 

= 


= 
Exemplo 11.3 Aplicando o algoritmo MPP. 


A Figura 11.8(a) é uma imagem binária 566 x 566 
de uma folha de uma árvore chamada maple e a Figura 
11.8(b) é sua fronteira 8-conectada. A sequência nas figu- 
ras 11.8(c) a (i) mostra as representações MMP desta fron- 
teira usando um complexo celular de células quadradas de 
tamanhos 2, 3, 4, 6,8, 16 e 32, respectivamente (os vértices 
de cada figura foram conectados com linhas retas para for- 
mar uma fronteira fechada). A folha tem duas caracteris- 
ticas principais: um caule e três lóbulos principais. O caule 
começa a desaparecer para tamanhos de célula superiores 
a 4 x 4, como mostra a Figura 11.8(f). Os três lóbulos prin- 
cipais estão razoavelmente bem conservados, mesmo para 
um tamanho de célula de 16 x 16, como mostra a Figura 
11.8(h). No entanto, vemos na Figura 11.8(i) que, no mo- 
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Figura 11.8 


(a) Imagem binária de 566 x 566. (b) Fronteira 8-conectada. (c) a (i), MPPs obtidos com células quadradas de tamanhos 2, 3, 4, 6, 


8, 16 e 32, respectivamente (os vértices foram unidos por linhas retas para exibição). O número de pontos da fronteira em (b) é 1.900. O número 


de vértices de (c) a (i) são 206, 160, 127, 92, 66, 32 e 13, respectivamente. 


mento em que o tamanho da célula é aumentado para 32 
x 32, essa característica foi praticamente perdida. 


O número de pontos na fronteira original (Figura 
11.8(b)) é 1.900. O número de vértices nas figuras 11.8(c) 
a (i) são 206, 160, 127, 92, 66, 32 e 13, respectivamente. 
A Figura 11.8(e), que tem 127 vértices, manteve todas as 
características principais da fronteira original enquanto 
atingiu uma redução de dados de mais de 90%. Portan- 
to, aqui vemos uma vantagem significativa dos MPPs ao 
representar uma fronteira. Outra vantagem importante é 
que os MPPs executam a suavização da fronteira. Como 
explicado na seção anterior, este é um requisito normal- 
mente solicitado quando representamos uma fronteira por 
um código da cadeia. 


11.14 Outras abordagens de aproximação 


poligonal 


Às vezes, abordagens conceitualmente mais simples 
que o algoritmo MPP discutido na seção anterior podem 
ser utilizadas para aproximações poligonais. Nesta seção, 
discutiremos duas abordagens. 


Técnicas de fusão 


As técnicas de fusão (merging) baseadas no erro mé- 
dio ou em outros critérios vêm sendo aplicadas para o 
problema da aproximação poligonal. Uma abordagem é 
fundir pontos ao longo de uma fronteira até que o mí- 
nimo erro quadrático do ajuste da linha para os pontos 
mesclados ultrapasse um limiar predefinido. Quando essa 
condição ocorre, os parâmetros da linha são armazena- 
dos, o erro é definido como 0 e o procedimento é repeti- 
do, fundindo novos pontos ao longo da fronteira até que 
o erro novamente exceda o limiar. Ao final do procedi- 
mento, as interseções dos segmentos de linha adjacentes 
formam os vértices do polígono. Uma das principais di- 
ficuldades com este método é que os vértices na aproxi- 
mação resultante nem sempre correspondem às inflexões 
(como no caso dos cantos) na fronteira original, pois uma 
nova linha não começa até que o limiar de erro não seja 
ultrapassado. Se, por exemplo, uma linha reta longa es- 
tava sendo rastreada e tornou-se um canto, um número 
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(dependendo do limiar) de pontos após esse canto seria 
absorvido antes que o limiar fosse ultrapassado. No en- 
tanto, a separação (discutida a seguir), juntamente com a 
fusão, pode ser usada para resolver esta dificuldade. 


Técnicas de separação 


Uma abordagem para a separação (splitting) do seg- 
mento de fronteira é subdividir um segmento sucessivamente 
em duas partes, até que um critério especificado seja al- 
cançado. Por exemplo, um requisito pode ser que a dis- 
tância máxima perpendicular de um segmento de frontei- 
ra até a linha que une seus dois pontos finais não exceda 
um limiar predefinido. Se isso acontecer, o ponto que es- 
tiver mais longe da linha torna-se um vértice, subdividin- 
do assim o segmento inicial em dois subsegmentos. Essa 
abordagem tem a vantagem de encontrar pontos de infle- 
xão acentuada. Para uma fronteira fechada, os melhores 
pontos de partida são geralmente os dois pontos mais dis- 
tantes da fronteira. Por exemplo, a Figura 11.9(a) mostra 
a fronteira de um objeto e a Figura 11.9(b) mostra uma 
subdivisão dessa fronteira em relação a seus pontos mais 
distantes. O ponto marcado com c é o ponto mais distan- 
te (considerando a distância perpendicular) do segmento 
da fronteira superior até a linha ab. Do mesmo modo, o 
ponto d é o ponto mais distante no segmento inferior. A 
Figura 11.9(c) mostra o resultado da utilização do pro- 
cedimento de separação com um limiar igual a 0,25 vez 
o comprimento da linha ab. Como nenhum ponto nos 
segmentos da nova fronteira tem uma distância perpen- 
dicular (até seu segmento de linha reta correspondente) 
que exceda esse limiar, o procedimento termina com o 
polígono da Figura 11.9(d). 


Figura 11.9 
resultante. 


11.1.5 Assinaturas 


Uma assinatura é uma representação funcional 1-D 
de uma fronteira e pode ser gerada de várias maneiras. 
Uma das mais simples é dada pelo gráfico da distância da 
fronteira ao centroide em função do ângulo, como ilus- 
trado na Figura 11.10. Independentemente da maneira 
como a assinatura é gerada, no entanto, a ideia básica é 
reduzir a representação da fronteira para uma função 1-D 
que seja presumivelmente mais fácil de descrever do que 
a fronteira 2-D original. 


As assinaturas geradas pela abordagem descrita an- 
teriormente são invariantes à translação, mas dependem 
da rotação e da escala. A normalização em relação à rota- 
ção pode ser alcançada encontrando uma maneira de se- 
lecionar o mesmo ponto de partida para gerar a assinatu- 
ra, independente da orientação da forma. Uma maneira 
de fazer isso é selecionar o ponto de partida como o ponto 
mais distante do centroide, assumindo que este ponto é 
único para cada forma de interesse. Outra maneira é se- 
lecionar o ponto sobre o “autoeixo” (eigen axis) (veja a 
Seção 11.4) que estiver mais afastado do centroide. Esse 
método requer mais cálculos computacionais, mas é mais 
robusto porque a direção do autoeixo é determinada uti- 
lizando todos os pontos de contorno. Ainda outra manei- 
ra é obter o código da cadeia da fronteira e, em seguida, 
usar a abordagem discutida na Seção 11.1.2, assumindo 
que a codificação é suficientemente coesa para que a ro- 
tação não afete sua circularidade. 

Com base nos pressupostos de uniformidade na es- 
cala em relação a ambos os eixos e que a amostragem é 
tomada em intervalos iguais de 6, as mudanças no tama- 
nho de uma forma resultam em alterações nos valores de 


d b 


(a) Fronteira original. (b) Fronteira dividida em segmentos com base nos pontos extremos. (c) Junção dos vértices. (d) Polígono 


[es A 


r(0) 
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Figura 11.10 Assinaturas de distância em função do ângulo. Em (a), r(@) é constante. Em (b), a assinatura consiste de repetições do padrão 
r(0) =A sec 6 para 0 < 0 <n/4e r(0) =A cossec O para 7/4 < 6 < 7/2. 


amplitude da assinatura correspondente. Uma maneira 
de normalizar é ajustar todas as funções para que sempre 
possam cobrir o mesmo intervalo de valores, por exem- 
plo, [0, 1]. A principal vantagem desse método é a sim- 
plicidade, mas tem a desvantagem potencialmente grave 
de que o ajuste da função inteira depende apenas de dois 
valores: o mínimo e o máximo. Se os formatos são rui- 
dosos, essa dependência pode ser uma fonte significativa 
de erro de objeto a objeto. Uma abordagem mais consis- 
tente (mas também mais intensa computacionalmente) 
é dividir cada amostra pela variância da assinatura, su- 
pondo que a variância não seja zero, como no caso da 
Figura 11.10(a) — ou tão pequena que crie dificuldades 
computacionais. O uso da variância produz um fator de 
mudança de escala variável inversamente proporcional 
às mudanças no tamanho e funciona de forma muito 
semelhante ao controle automático de ganho. Seja qual 
for o método utilizado, lembre-se que a ideia básica é re- 
mover a dependência ao tamanho preservando a forma 
fundamental da função. 


A distância em função do ângulo não é a única ma- 
neira de gerar uma assinatura. Por exemplo, outra manei- 
ra de percorrer a fronteira é, para cada ponto ao longo 
dela, gerar um gráfico do ângulo entre uma linha tan- 
gente à fronteira neste ponto e uma linha de referência. 
A assinatura resultante, embora bastante diferente das 
curvas r(0) da Figura 11.10, pode carregar informações 
sobre as características básicas do formato. Por exemplo, 
os segmentos horizontais na curva corresponderiam às 
linhas retas ao longo da fronteira porque o ângulo tan- 


gente seria constante nesse ponto. Uma variação dessa 
abordagem é usar a chamada função de densidade de incli- 
nação como assinatura. Essa função é um histograma dos 
valores dos ângulos tangentes. Um vez que um histogra- 
ma é uma medida de concentração de valores, a função 
de densidade de inclinação responde fortemente a seções 
da fronteira com valores constantes de ângulos tangentes 
(segmentos retos ou quase retos) e tem vales profundos 
em seções que produzem ângulos que variam rapida- 
mente (cantos ou outras inflexões agudas). 


= 
Exemplo 11.4 Assinaturas de dois objetos simples. 


As figuras 11.11(a) e (b) mostram dois objetos binários 

e as figuras 11.11(c) e (d) sao suas fronteiras. As assinaturas 

r(9) correspondentes nas figuras 11.11(e) e (f) variam de 

0º a 360º em incrementos de 1º. O número de picos mais 

acentuados que aparecem nas assinaturas é suficiente para 
diferenciar entre os formatos dos dois objetos. 

a 


11.1.6 Segmentos de fronteira 


A decomposição de uma fronteira em segmentos é 
um procedimento útil em algumas ocasiões. A decompo- 
sição reduz a complexidade da fronteira e, assim, simpli- 
fica o processo de descrição. Esta abordagem é particular- 
mente atrativa quando a fronteira contém uma ou mais 
concavidades significativas que carregam a informação do 
formato. Neste caso, o uso do fecho convexo da região de- 
limitada pela fronteira é uma ferramenta poderosa para a 
decomposição robusta da fronteira. 
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Figura 11.11 
pondem a ângulos de 0° a 360°, com incrementos de 1°. 


Conforme definido na Seção 9.5.4, o fecho convexo H 
de um conjunto arbitrário S é o menor conjunto convexo 
que contém S. A diferença de conjuntos H— S é chamada 
de deficiência convexa D do conjunto S. Para ver como es- 
ses conceitos podem ser utilizados para fragmentar uma 
fronteira em segmentos significativos, considere a Figura 
11.12(a), que mostra um objeto (conjunto S) e sua defici- 
ência convexa (regiões sombreadas). A região de fronteira 
pode ser fragmentada seguindo o contorno de S e mar- 
cando os pontos em que uma transição é feita para dentro 
ou para fora de um componente da deficiência convexa. 
A Figura 11.12(b) mostra o resultado nesse caso. Note 
que, em princípio, esse esquema é independente do ta- 
manho e da orientação da região. 


Na prática, as fronteiras digitais tendem a ser irre- 
gulares por causa da digitalização, do ruído e das varia- 
ções na segmentação. Esses efeitos em geral resultam 
em deficiências convexas que possuem pequenos com- 
ponentes não significativos espalhados aleatoriamente 


Duas regiões binárias, suas fronteiras externas e suas assinaturas r(9) correspondentes. Os eixos horizontais em (e) e (f) corres- 


ao longo da fronteira. Em vez de tentar eliminar essas 
irregularidades pelo pós-processamento, uma aborda- 
gem comum é suavizar a fronteira antes da fragmen- 
tação. Existem várias alternativas para isso. Uma delas 
é percorrer a fronteira substituindo as coordenadas de 
cada pixel pelas coordenadas médias de seus k vizinhos 
ao longo da fronteira. Essa abordagem funciona para 
pequenas irregularidades, mas é bastante demorada e 
de difícil controle. Grandes valores de k podem resul- 
tar em uma suavização excessiva, enquanto pequenos 
valores de k podem não ser suficientes em alguns seg- 
mentos da fronteira. 


Uma técnica mais encorpada é usar uma aproxima- 
ção poligonal antes de encontrar a deficiência convexa 
de uma região. A maioria das fronteiras digitais de inte- 
resse são polígonos simples (lembre-se da Seção 11.1.3, 
segundo a qual estes são polígonos sem autointerseção). 
Graham e Yao (1983) apresentam um algoritmo para en- 
contrar o fecho convexo desses polígonos. 


Figura 11.12 (a) Uma região, S, e sua deficiência convexa (sombrea- 
da). (b) Fronteira fragmentada. 


Os conceitos de fecho convexo e sua deficiência são 
igualmente úteis para descrever uma região inteira ou 
apenas sua fronteira. Por exemplo, a descrição de uma 
região pode estar baseada em sua área e na área de sua 
deficiência convexa, no número de componentes na defi- 
ciência convexa, na posição relativa desses componentes 
e assim por diante. Lembre-se que um algoritmo morfo- 
lógico para encontrar o fecho convexo foi desenvolvido 
na Seção 9.5.4. As referências citadas ao final deste capí- 
tulo contêm outras formulações. 


11.1.7 Esqueletos 


Uma abordagem importante para representar o for- 
mato estrutural de uma região plana é reduzi-la a um 
grafo. Esta redução pode ser realizada obtendo o esque- 
leto da região por meio de um algoritmo de afinamento 
(também chamado algoritmo de esqueletização). Os proce- 
dimentos de afinamento desempenham um papel central 
em uma ampla gama de problemas em processamento 
de imagens, que vai desde a inspeção automatizada de 
placas de circuito impresso até a contagem de fibras de 
asbesto em filtros de ar. Nós já discutimos na Seção 9.5.7 
as noções básicas de esqueletização usando morfologia. 
No entanto, como observado naquela seção, o procedi- 
mento discutido não manteve o esqueleto conectado. O 
algoritmo desenvolvido aqui corrige esse problema. 


O esqueleto de uma região pode ser definido pela 
transformada do eixo médio (MAT, de medial axis trans- 
formation), proposto por Blum (1967). A MAT de uma 
região R com borda B é definida da seguinte maneira: 
para cada ponto p em R, encontramos seu vizinho mais 
próximo em B. Se p tiver mais de um vizinho, diz-se que 
ele pertence ao eixo médio (esqueleto) de R. O conceito de 
“mais próximo” (e a MAT resultante) depende da defini- 
ção de uma distância (veja a Seção 2.5.3). A Figura 11.13 
mostra alguns exemplos usando a distância euclidiana. 
Os mesmos resultados seriam obtidos com o disco máxi- 
mo da Seção 9.5.7. 
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Figura 11.13 Eixos médios (tracejados) de três regiões simples. 


A MAT de uma região tem uma definição intuiti- 
va baseada no chamado “conceito de fogo na planície”. 
Considere uma região da imagem como se fosse uma 
planície com grama uniforme e seca e imagine que há 
fogo ao longo de suas fronteiras. Todas as frentes de fogo 
avançam para dentro da região com a mesma velocidade. 
A MAT da região é o conjunto de pontos alcançado por 
mais de uma frente de fogo ao mesmo tempo. 


Embora a MAT de uma região gere um esqueleto 
intuitivamente agradável, a aplicação direta dessa defi- 
nição requer alto custo computacional. Sua implemen- 
tação envolve potencialmente o cálculo da distância de 
cada ponto interno para cada ponto da fronteira de uma 
região. Vários algoritmos têm sido propostos para melho- 
rar a eficiência computacional e, ao mesmo tempo, tentar 
produzir uma representação de eixo medial de uma re- 
gião. Normalmente, estes são algoritmos de afinamento 
que eliminam iterativamente pontos da fronteira de uma 
região respeitando algumas restrições como: (1) não re- 
mover os pontos extremos, (2) não quebrar a conectivi- 
dade e (3) não causar uma erosão excessiva da região. 


Nesta seção, apresentamos um algoritmo para o afi- 
namento de regiões binárias. Assume-se que os pontos 
da região possuam valor 1 e os pontos de fundo possuam 
valor 0. O método consiste na aplicação sucessiva de dois 
passos básicos aos pontos do contorno da região, sendo 
que, segundo a definição dada na Seção 2.5.2, um ponto 
de contorno é qualquer pixel de valor 1 que tenha pelo me- 
nos um vizinho de valor 0. Com referência à notação de 
vizinhança-8 na Figura 11.14, o Passo 1 marca um ponto 
de contorno p para ser excluído se as seguintes condições 
forem satisfeitas: 


(a) 2<N(p)<6 
(b) T(p)=1 
(c) p,:p,:p,=0 


(d) p,-P,°P, = 9 (11.1-4) 
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Po P2 P3 
Ps Pı P4 
P7 P6 Ps 


Figura 11.14 Arranjo de vizinhança usado pelo algoritmo de afina- 
mento. 


em que N(p,) é o numero de vizinhos de p, que são dife- 
rentes de zero; ou seja, 


Np)=p +p, +. +p +p, (115) 


na qual p é 0 ou 1, e T(p,) é o número de transições 0-1 na 
sequência ordenada p, p,,..., Py Por Pa Por exemplo, N(p,) = 
4e T(p,)= 3 na Figura 11.15. 

No Passo 2, as condições (a) e (b) permanecem as 
mesmas, mas as condições (c) e (d) mudam para 

(C) P,’ p,:p;=0 
(d’) p,’ P,’ Ps = 0 

O Passo 1 deve ser aplicado a cada pixel do con- 
torno da região binária que está sendo considerada. Se 
uma ou mais das condições (a) a (d) for violada, o valor 
do ponto em questão não muda. Se todas as condições 
forem satisfeitas, o ponto é marcado para ser excluído. No 
entanto, o ponto não é eliminado até que todos os pontos 
de fronteira tenham sido processados. Este atraso impede 
a alteração da estrutura dos dados durante a execução do 
algoritmo. Após a aplicação do Passo 1 em todos os pon- 
tos do contorno, os que foram marcados serão apagados 
(alterados para 0). Em seguida, o Passo 2 é aplicado aos 
dados resultantes exatamente da mesma maneira como 
no Passo 1. 


(11.1-6) 


Assim, uma iteração do algoritmo de afinamen- 
to consiste em: (1) aplicação do Passo 1 para marcar os 
pontos do contorno para exclusão; (2) eliminar os pontos 
marcados; (3) aplicação do Passo 2 para marcar os pon- 
tos restantes do contorno para eliminação e (4) excluir 


1 0 1 


Figura 11.15 | Ilustração das condições (a) e (b) na Equação 11.1-4. 
Neste caso, N(p,) = 4e T(p,) = 3. 


os pontos marcados. Este procedimento basico é aplicado 
iterativamente até que nao hajam mais pontos para se- 
rem apagados, o que finaliza o algoritmo, produzindo o 
esqueleto da região. 


A condição (a) é violada quando o ponto de con- 
torno p, tem apenas um ou sete vizinhos-8 de valor 1. 
Ter apenas um vizinho desses implica que p, é o ponto 
extremo de um segmento do esqueleto e, obviamente, 
não deve ser excluído. Apagar p,, se ele possuir sete vizi- 
nhos como esses, levaria à erosão da região. A condição 
(b) é violada quando é aplicada a pontos em um trecho 
de 1 pixel de espessura. Por isso, esta condição impede a 
quebra de segmentos do esqueleto durante a operação de 
afinamento. As condições (c) e (d) são satisfeitas simul- 
taneamente pelo conjunto mínimo de valores: (p, = 0 ou 
p, = 0) ou (p, = 0 e p, = 0). Assim, com referência ao 
arranjo de vizinhança da Figura 11.14, um ponto que sa- 
tisfaz essas condições, bem como as condições (a) e (b), é 
um ponto de fronteira leste ou sul ou um ponto de canto 
a noroeste na fronteira. Em qualquer caso, p, não faz par- 
te do esqueleto e deve ser removido. Da mesma forma, as 
condições (c’) e (d’) são satisfeitas simultaneamente pelo 
conjunto mínimo de valores a seguir: (p, = 0 ou p, = 0) 
ou (p, = 0 e p, = 0). Estes correspondem aos pontos de 
fronteira norte ou oeste, ou um ponto de canto a sudes- 
te. Note que os pontos de canto a nordeste têm p, = 0 e 
p, = 0, e, assim, satisfazem as condições (c) e (d), bem 
como (c’) e (d’). O mesmo se aplica aos pontos de canto a 
sudoeste, que têm p, = 0 e p, = 0. 


= 
Exemplo 11.5 0 esqueleto de uma região. 


A Figura 11.16 mostra uma imagem segmentada de 
um osso da perna humana e, sobreposto, o esqueleto da re- 
gião. Na maior parte da imagem, o esqueleto parece intui- 
tivamente correto. Há duas ramificações no lado superior 
direito do osso; à primeira vista, seria de esperar que fosse 
uma única ramificação, como acontece no lado esquerdo. 
Note, entretanto, que o lado superior direito do osso é um 
pouco maior do que o lado esquerdo. Isso é o que causou 
que essa ramificação fosse criada pelo algoritmo. Esse tipo 
de comportamento imprevisível não é incomum em algorit- 
mos de esqueletização. 

= 


11.2 Descritores de fronteira 


Nesta seção, consideraremos várias abordagens para 
descrever a fronteira de uma região, e, na Seção 11.3, nos 
focaremos nos descritores regionais. Partes das seções 11.4 
e 11.5 são aplicáveis tanto às fronteiras quanto às regiões. 


Figura 11.16 Osso da perna humana e o esqueleto sobreposto da 
região. 


11.2.1 Alguns descritores simples 


O comprimento de uma fronteira é um dos seus des- 
critores mais simples. O número de pixels ao longo de 
uma fronteira dá uma aproximação básica de seu com- 
primento. Para uma curva representada pelo código da 
cadeia com espaçamento unitário em ambas as direções, 
o número de componentes verticais e horizontais mais 
V2 vezes o número de componentes diagonais dá o seu 
comprimento exato. 


O diâmetro de uma fronteira B é definido como 


Diâm(B) = máx[D(p, (11.2-1) 
em que D é uma medida de distância (veja a Seção 2.5.3) 
e p,e p, são pontos na fronteira. O valor do diâmetro e 
da orientação de um segmento de linha conectando os 
dois pontos extremos que compõem o diâmetro (esta li- 
nha é chamada de eixo maior da fronteira) são descritores 
úteis de uma fronteira. O eixo menor de uma fronteira é 
definido como a linha perpendicular ao eixo maior e de 
comprimento tal que uma caixa que passa pelos quatro 
pontos exteriores de interseção da fronteira com os dois 
eixos envolve completamente a fronteira.” A caixa descri- 
ta anteriormente é chamada de retângulo básico, e a razão 
entre o eixo maior e o menor é chamada de excentricidade 
da fronteira. Isso também é um descritor útil. 


A curvatura é definida como a taxa de mudança da 
inclinação. Em geral, a obtenção de medidas confiáveis de 
curvatura em um ponto de uma fronteira digital é difícil, 


Não confunda esta definição de eixo maior e eixo menor com os 
autoeixos (eigen axis) definidos na Seção 11.4. 
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pois essas fronteiras tendem a ser localmente “rugosas”. 
No entanto, a utilização da diferença entre as inclinações 
de segmentos adjacentes da fronteira (que foram repre- 
sentados como segmentos de retas) como um descritor da 
curvatura no ponto de intersecção dos segmentos pode 
ser muito útil. Por exemplo, os vértices das fronteiras 
como os mostrados na Figura 11.6(c) são apropriados 
para descrições de curvatura. À medida que a fronteira 
é percorrida no sentido horário, um ponto de vértice p é 
considerado parte de um segmento convexo se a mudança 
na inclinação em p for não negativa; caso contrário, p é 
considerado parte de um segmento côncavo. A descrição 
de curvatura em um ponto pode ser adicionalmente re- 
finada usando intervalos na mudança de inclinação. Por 
exemplo, p poderia ser parte de um segmento quase reto 
se a mudança for inferior a 10º, ou um ponto de canto se 
a alteração for superior a 90º. Estes descritores devem ser 
usados com cuidado, porque sua interpretação depende 
do comprimento de cada segmento individual em relação 
ao comprimento total da fronteira. 


11.2.2 Números do formato 


Conforme explicado na Seção 11.1.2, a primeira 
diferença de uma fronteira representada pelo código da 
cadeia depende do ponto de partida. O número do formato 
de tal fronteira, com base no código de quatro direções da 
Figura 11.3(a), é definido como a primeira diferença de 
menor magnitude. A ordem n de um número do formato 
é definida como o número de dígitos em sua representa- 
ção. Além disso, n é par para uma fronteira fechada e seu 
valor limita o número de possíveis formatos diferentes. A 
Figura 11.17 mostra todas os formatos de ordem 4, 6 e 8, 
junto com suas representações pelo código da cadeia, pri- 
meiras diferenças e números do formato correspondentes. 
Note que a primeira diferença é calculada considerando o 
código da cadeia como uma sequência circular, conforme 
discutido na Seção 11.1.2. Embora a primeira diferença 
de um código da cadeia seja independente da rotação, 
em geral a fronteira codificada depende da orientação da 
grade. Uma forma de normalizar a orientação da grade 
é pelo alinhamento da grade do código da cadeia com 
os lados do retângulo básico definido na seção anterior. 


Na prática, para uma ordem desejada do formato, 
encontramos o retângulo de ordem n, cuja excentricida- 
de (definida na seção anterior) melhor se aproxima com 
a do retângulo básico e usamos este novo retângulo para 
determinar o tamanho da grade. Por exemplo, se n = 12, 
todos os retângulos de ordem 12 (isto é, aqueles cujo pe- 
rímetro é 12) são 2 x 4,3 x 3,e 1 x 5. 


Se a excentricidade do retangulo 2 x 4 for a que 
mais bem se aproxima da excentricidade do retangulo ba- 
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Ordem 4 


Código da cadeia: 0 3 2 1 
Diferença: 3 3 3 3 


Número do formato: 3 3 3 3 


s— p 


Ordem 6 


03221 
03303 


33033 


Ordem 8 


Er 


Código da cadeia: 00332211 
Diferença: 3 0303030 


Número do formato: 0 3 0 3 0 3 0 3 


03032211 


339133030 


03033133 


00032221 


30033003 


00330033 


Figura 11.17 Todos os formatos de ordem 4, 6 e 8. As direções são da Figura 11.3(a) e o ponto preto indica o ponto de partida. 


sico para uma dada fronteira, estabelecemos uma grade 
2 x 4 centrada no retângulo básico e usamos o procedi- 
mento descrito na Seção 11.1.2 para obter o código da 
cadeia. O número do formato resulta da primeira diferen- 
ça deste código. Embora a ordem do número do formato 
resultante geralmente seja igual a n em razão da maneira 
que o espaçamento da grade foi selecionado, as fronteiras 
com depressões semelhantes a esse espaçamento algumas 
vezes podem levar a números do formato de ordem supe- 
rior a n. Neste caso, podemos especificar um retângulo de 
ordem menor que n e repetir o procedimento até que o 
número do formato resultante seja de ordem n. 


E 
Exemplo 11.6 Passos para calcular um número do formato. 


Suponha que n = 18 seja especificado para a fronteira 
na Figura 11.18(a). Obter um número do formato dessa or- 
dem exige seguir os passos que acabamos de discutir. O pri- 
meiro passo é encontrar o retângulo básico, como mostrado 
na Figura 11.18(b). O retângulo mais próximo de ordem 18 
é um retângulo 3 x 6, exigindo a subdivisão do retângulo 
básico, como mostrado na Figura 11.18(c), e as direções do 
código da cadeia estão alinhadas com a grade resultante. O 
passo final é a obtenção do código da cadeia e a utilização de 
sua primeira diferença para calcular o número do formato, 
como mostrado na Figura 11.18(d). 

a 


11.2.3 Descritores de Fourier 


A Figura 11.19 mostra uma fronteira digital de K 
pontos no plano xy. A partir de um ponto arbitrário (x, y,), 


pares de coordenadas (x, Ya), (XY), X Ya) ver (Xp yr Ye) 
são encontrados percorrendo a fronteira, por exemplo, 
no sentido anti-horário. Essas coordenadas podem ser 
expressas na forma x(k) = x, e y(k) = y,. Com esta nota- 
ção, a fronteira em si pode ser representada como a se- 
quência de coordenadas s(k) = [x(k), y(k)], para k = 0, 1, 


Código da cadeia: 000030032232221211 
Diferença: 300031033013003130 


Número do formato: 000310330130031303 


Figura 11.18 Etapas na geração de um número do formato. 
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Figura 11.19 Uma fronteira digital e sua representação como uma 
sequência complexa. Os pontos (x, y,) e (x, Y,) exibidos são (arbitra- 
riamente) os dois primeiros pontos da sequência. 


2,..., K- 1. Além disso, cada par de coordenadas pode ser 
tratado como um número complexo de modo que 


s(k) = x(k) + jy(k) (11.2-2) 


para k= 0, 1, 2,..., K- 1. Ou seja, o eixo x é tratado como 
o eixo real e o eixo y como o eixo imaginário de uma 
sequência de números complexos. Embora a interpre- 
tação da sequência tenha sido reformulada, a natureza 
da fronteira em si não foi alterada. Evidentemente, essa 
representação tem uma grande vantagem: ela reduz um 
problema 2-D para um problema 1-D. 


Da Equação 4.4-6, a transformada discreta de Fou- 
rier (DFT) de s(k) é 
he (11.2-3) 
para u = 0, 1, 2,..., K- 1. Os coeficientes complexos 
a(u) são chamados de descritores de Fourier da fronteira. A 
transformada inversa de Fourier desses coeficientes re- 
constrói s(k). Isto é, a partir da Equação 4.4-7, 


KA 
1 


s(k) = —S aque? 


para k = 0, 1, 2,..., K- 1. Suponha, entretanto, que, em 
vez de todos os coeficientes de Fourier, apenas os pri- 
meiros P coeficientes sejam usados. Isto é equivalente a 
definir a(u) = O para u > P- 1 na Equação 11.2-4. O re- 
sultado é a seguinte aproximação para s(k): 


(11.2-4) 


PA 


S(k) = => ae” 


u=0 


(11,255) 


para k= 0, 1, 2,..., K- 1. Embora apenas P termos sejam 
usados para obter cada componente de $(k), k ainda varia 
de 0 a K- 1. Ou seja, o mesmo número de pontos existe 
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na fronteira aproximada, mas não são utilizados tantos 
termos na reconstrução de cada ponto. Lembre-se das 
discussões sobre a transformada de Fourier no Capítulo 
4, que os componentes de alta frequência são responsá- 
veis pelos detalhes finos, e os componentes de baixa fre- 
quência determinam a forma global da imagem. Assim, 
quanto menor P for ficando, mais detalhes são perdidos 
na fronteira, como mostra o exemplo a seguir. 


E 
Exemplo 11.7 Usando os descritores de Fourier. 


A Figura 11.20(a) mostra a fronteira de um cromos- 
somo humano com 2.868 pontos. Os 2.868 descritores de 
Fourier correspondentes foram obtidos para esta frontei- 
ra usando a Equação 11.2-3. O objetivo deste exemplo é 
examinar os efeitos da reconstrução da fronteira com base 
na redução do número de descritores de Fourier. A Figura 
11.20(b) mostra a fronteira reconstruída usando a metade 
dos 2.868 descritores. É interessante notar que não há dife- 
rença perceptível entre essa fronteira e a original. As figuras 
11.20(c) a (h) mostram as fronteiras reconstruídas com o 
número de descritores de Fourier sendo 10%, 5%, 2,5%, 
1,25%, 0,63% e 0,28% de 2.868, respectivamente. Essas 
porcentagens são aproximadamente iguais a 286, 144, 72, 
36, 18 e 8 descritores, respectivamente, sendo que os nú- 
meros foram arredondados para o inteiro par mais próximo. 
O ponto importante aqui é que 18 descritores, apenas seis 
décimos de um por cento dos 2.868 descritores originais, fo- 
ram suficientes para manter as principais características do 
formato da fronteira original: quatro saliências longas e duas 
baías profundas. A Figura 11.20(h), obtida com oito descri- 
tores, é um resultado inaceitável porque as principais carac- 
terísticas foram perdidas. Outras reduções a 4 e 2 descritores 
resultariam em uma elipse e um círculo, respectivamente 
(Exercício 11.13). 

E 


Como mostra o exemplo anterior, poucos descri- 
tores de Fourier são suficientes para capturar a essência 
geral de uma fronteira. Essa propriedade é importante 
porque esses coeficientes carregam informações sobre o 
formato. Assim, eles podem ser usados como base para 
diferenciar entre diferentes formatos de fronteiras, como 
veremos no Capítulo 12. 


Dissemos várias vezes que os descritores devem ser 
tão insensíveis quanto possível a translação, rotação e mu- 
danças de escala. Nos casos em que os resultados depen- 
dem da ordem em que os pontos são processados, uma 
restrição adicional é que os descritores devem ser insen- 
síveis ao ponto de partida. Os descritores de Fourier não 
são diretamente insensíveis a essas mudanças geométricas, 
mas as mudanças nestes parâmetros podem estar relacio- 
nadas a transformações simples dos descritores. Por exem- 
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b 


Figura 11.20 


(a) Fronteira de um cromossomo humano (2.868 pontos). (b) a (h) Fronteiras reconstruídas usando 1.434, 286, 144, 72, 36, 18 e 8 


descritores de Fourier, respectivamente. Estes números são aproximadamente 50%, 10%, 5%, 2,5%, 1,25%, 0,63% e 0,28% de 2.868, respec- 


tivamente. 


plo, considere a rotação e lembre-se da análise matemática 
básica que a rotação de um ponto por um ângulo 9 em tor- 
no da origem do plano complexo é obtido multiplicando 
o ponto por e”. Repetir essa operação para cada ponto de 
s(k) rotaciona a sequência inteira em torno da origem. A 
sequência rotacionada é dada por s(k)e”, cujos descritores 
de Fourier são 


KA 
au) — Sherer 


k=0 


= a(uje” (11.2-6) 


para u = 0, 1, 2,..., K- 1. Assim, a rotação simplesmen- 
te afeta todos os coeficientes igualmente por um termo 
multiplicativo constante e”. 


A Tabela 11.1 resume os descritores de Fourier para 
uma sequência s(k) de uma fronteira que sofre rotação, 
translação, escala e mudanças no ponto de partida. O 
símbolo A é definido como A, = Ax + jAy, então a no- 
tação s (k) = s(k) + A, indica a redefinição (translação) 
da sequência como 

s(k) = [x(k) + Ax] + jk) + Ay] (11.2-7) 


Em outras palavras, a translação consiste na adição 
de um deslocamento constante para todas as coordena- 


das nas fronteiras. Note que a translação não tem efeito 
sobre os descritores, exceto para u = 0, que tem o impul- 
so ó(u). Finalmente, a expressão s(k) = s(k—k,) significa 
redefinir a sequéncia como 


5, = x(k k) + jy(k— k) (11.2-8) 


o que muda somente o ponto de partida da sequência de 
k = 0 para k = k,. A última linha da Tabela 11.1 mostra 


Tabela 11.1 Algumas propriedades básicas dos descritores de 
Fourier. 
Descritor de 
Transformação Fronteira Fourier 

Identidade sik) alu) 
Rotação sIk) = slkje” a(u) = aluje” 
Translação slk) = slk) + a afu) = alu) + A Alu) 
Escala s{k) = astk) alu) = aa(u) 
Ponto de partida sk) = slk- k) | alu) = aļu)e -27K 


* Lembre-se, do Capítulo 4, que a transformada de Fourier de uma 
constante é um impulso localizado na origem. Lembre-se tam- 
bém que o impulso é zero em qualquer outro lugar. 


que uma mudança no ponto de partida afeta todos os des- 
critores de uma maneira diferente (mas conhecida), no 
sentido de que o termo que multiplica a(u) depende de u. 


11.2.4 Momentos estatísticos 


O formato dos segmentos de fronteira (e das assina- 
turas) pode ser descrito quantitativamente usando mo- 
mentos estatísticos, como média, variância e momentos 
de ordem superior. Para ver como isto pode ser feito, con- 
sidere a Figura 11.21(a), que mostra o segmento de uma 
fronteira, e a Figura 11.21(b), que mostra o segmento re- 
presentado como uma função 1-D g(r) de uma variável 
arbitrária r.' Esta função é obtida conectando os dois pon- 
tos extremos do segmento e rotacionando o segmento de 
linha até ficar na horizontal. As coordenadas dos pontos 
são rotacionadas pelo mesmo ângulo. 


Vamos tratar a amplitude de g como uma variável 
aleatória discreta v e formar um histograma de amplitu- 
de p(v), i=0,1,2,..., 4-1, em que A é o número de 
incrementos discretos de amplitude em que dividimos a 
escala de amplitude. Em seguida, lembrando que p(v,) é 
uma estimativa da probabilidade de ocorrência do valor 
v, segue da Equação 3.3-17 que o n-ésimo momento de v 
em relação à sua média é 


A 


m) =X (v; =m)" p(v;) 


i=0 


(11.2.9) 


sendo 


(11.2.10) 


A quantidade m é reconhecida como o valor médio ou a 
média de v e u, como a sua variância. Geralmente, só os 
primeiros momentos são necessários para diferenciar en- 
tre as assinaturas de formatos claramente distintos. 

Uma abordagem alternativa é normalizar g(r) para 
que fique com área unitária e tratá-la como um histo- 


a b g(r) 


: ahi. 


Figura 11.21 
uma função 1-D. 


(a) Segmento de fronteira. (b) Representação como 


Consulte o site do livro para uma breve revisão (em inglês) sobre 
a teoria da probabilidade. 
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grama. Em outras palavras, g(r,) é agora tratada como a 
probabilidade de ocorrência do valor r,. Neste caso, r é 
tratada como a variável aleatória e os momentos são 


p= my a) (12-11) 
sendo = 
m=Srgtr) (11.2-12) 


Nessa notação, K é o número de pontos na fronteira, e 
p,(r) está diretamente relacionada ao formato de g(r). Por 
exemplo, o segundo momento |, (r) mede o espalhamen- 
to da curva em torno da média de r e o terceiro momento 
p, (r) mede a sua simetria em relação à média. 


Basicamente, o que fizemos foi reduzir a tarefa de 
descrição de fronteiras para a descrição de funções 1-D. 
Embora os momentos sejam de longe o método mais po- 
pular, não são os únicos descritores utilizados para esta 
finalidade. Por exemplo, outro método consiste em cal- 
cular a transformada discreta de Fourier 1-D, obtendo 
seu espectro e usando os primeiros q componentes do 
espectro para descrever g(r). A vantagem dos momentos 
sobre as outras técnicas é que a implementação dos mo- 
mentos é simples e eles também carregam uma interpre- 
tação “física” do formato da fronteira. A invariância desta 
abordagem em relação à rotação é clara a partir da Figura 
11.21. A normalização do tamanho, se desejada, pode ser 
obtida pelo ajuste do intervalo de valores de ge r. 


11.3 Descritores regionais 


Nesta seção consideraremos várias abordagens para 
descrever as regiões de uma imagem. Tenha em mente 
que é uma prática comum o uso combinado dos descrito- 
res de fronteiras com os de regiões. 


11.31 Alguns descritores simples 


A área de uma região é definida como o número de 
pixels na região. O perímetro de uma região é o tamanho 
(comprimento) da sua fronteira. Embora a área e o pe- 
rímetro sejam por vezes utilizados como descritores, eles 
são usados principalmente em situações em que o tama- 
nho das regiões de interesse é invariante. A utilização mais 
frequente desses dois indicadores é na medida da compa- 
cidade de uma região, definida como (perímetro)*/área. 
Um descritor um pouco diferente (por conta de um mul- 
tiplicador escalar) da compacidade é a razão de circulari- 
dade, definida como a razão entre a área de uma região 
e a área de um círculo (a forma mais compacta) tendo o 
mesmo perímetro. A área de um círculo com perímetro P 
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é P*/47. Portanto, a razão de circularidade, R, é dada pela 
expressão 


= d 
P. 

sendo A a área da região em questão e P o comprimento 
de seu perímetro. O valor desta medida é 1 para uma 
região circular e 7/4 para um quadrado. A compacidade 
é uma medida adimensional e, portanto, é invariante às 
mudanças uniformes de escala; é invariante também à 
orientação, ignorando, é claro, erros de cálculo que po- 
dem aparecer no redimensionamento e na rotação de 
uma região digital. 


(11.3-1) 


Outras medidas simples utilizadas como descritores 
regionais incluem a média e a mediana dos niveis de in- 
tensidade, os valores minimo e maximo de intensidade e 
o numero de pixels com valores acima e abaixo da média. 


Exemplo 11.8 Usando cálculos da área para extrair 
informações das imagens. 


Mesmo um simples descritor regional, como a área 
normalizada, pode ser bastante útil para extrair informa- 
ções de imagens. Por exemplo, a Figura 11.22 mostra uma 
imagem de satélite das Américas obtida na faixa do infra- 


Número da Razão de luzes por 
região (de cima | região em relação ao 
para baixo) total de luzes 
1 0,204 
2 0,640 
3 0,049 
4 0,107 


Figura 11.22 


Imagens na faixa do infravermelho das Américas durante a noite. (Imagem original: cortesia da Noaa.) 


vermelho. Como discutido na Seção 1.3.4, imagens como 
essas fornecem um inventário global dos assentamentos 
humanos. O sensor utilizado para obter essas imagens tem 
a capacidade de detectar emissões no espectro visível e no 
infravermelho próximo, como luzes, incêndios e erupções. 
A tabela ao lado das imagens mostra (por região, de cima 
para baixo) a relação entre a área ocupada pelo branco (lu- 
zes) e a área total de luz nas quatro regiões. Uma medida 
simples como essa pode dar, por exemplo, uma estimativa 
relativa por região da energia elétrica consumida. Os dados 
podem ser refinados normalizando-os em relação à massa 
de terra por região, ou em relação à densidade populacio- 
nal, e assim por diante. 

E 


11.32 Descritores topológicos 


As propriedades topológicas são úteis para a des- 
crição global de regiões no plano da imagem. Definida de 
forma simples, a topologia é o estudo das propriedades 
de uma figura que não são afetadas por nenhuma de- 
formação, desde que não ocorram cortes ou junções na 
figura (às vezes são chamadas de distorções de folha de 
borracha). Por exemplo, a Figura 11.23 mostra uma re- 
gião com dois buracos. Assim, se um descritor topológico 
é definido pelo número de buracos na região, esta pro- 
priedade, obviamente, não será afetada por uma trans- 
formação de alongamento ou de rotação da imagem. Em 
geral, porém, o número de buracos pode mudar se a re- 
gião for rasgada ou dobrada. Note que, uma vez que o ato 
de alongar uma figura afeta as distâncias, as propriedades 
topológicas não podem depender dessa noção de distân- 
cia ou de quaisquer propriedades implicitamente basea- 
das no conceito de métrica de distância. 


Outra propriedade topológica útil para a descrição 
de uma região é o número de componentes conexos. Um 
componente conexo de uma região foi definido na Seção 
2.5.2. A Figura 11.24 mostra uma região com três com- 
ponentes conexos. (Veja a Seção 9.5.3 sobre um algorit- 
mo para calcular os componentes conexos.) 


Figura 11.23 Região com dois buracos. 
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Figura 11.24 Região com três componentes conexos. 


O número de buracos H e de componentes conexos 
Cem uma figura pode ser usado para definir o número de 
Euler E: 


E=C-H (11.3-2) 


O número de Euler também é uma propriedade topoló- 
gica. As regiões mostradas na Figura 11.25, por exemplo, 
têm números de Euler iguais a 0 e -1, respectivamente, 
porque o “A” possui um componente conexo e um ori- 
fício e o “B”, um componente conexo, mas dois buracos. 


As regiões representadas por segmentos de linhas 
retas (chamadas redes poligonais) têm uma interpretação 
particularmente simples em relação ao número de Eu- 
ler. A Figura 11.26 mostra uma rede poligonal. Classifi- 
car as regiões internas de uma rede desse tipo em faces 
e buracos é uma tarefa importante em muitas ocasiões. 
Denotando-se o número de vértices por V, o número de 
arestas por Q e o número de faces por F, tem-se a seguin- 
te relação, chamada de fórmula de Euler: 


V-Q+F=C-H 


que, em relação à Equação 11.3-2, é igual ao número de 
Euler: 


V-Q+F=C-H 
=E (11.3-3) 


Figura 11.25 
tivamente. 


Regiões com números de Euler igual a O e —1, respec- 
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Figura 11.26 Uma região contendo uma rede poligonal. 


A rede na Figura 11.26 tem 7 vértices, 11 arestas, 2 faces, 
1 região conexa e 3 buracos; assim, o número de Euler 
é: 


7-11+2=1-3=-2 


Figura 11.27 
(d) Esqueleto de (c). 


Os descritores topológicos fornecem uma característica 
adicional que muitas vezes é útil na caracterização de re- 
giões em uma cena. 


E 

Exemplo 11.9 Uso de componentes conexos para 
extrair as características maiores de uma 
imagem segmentada. 


A Figura 11.27(a) mostra uma imagem de 8 bits, 
512 x 512, de Washington, D.C., obtidas por um satélite da 
Nasa. Esta imagem em particular está na banda do infra- 
vermelho próximo (veja a Figura 1.10 para mais detalhes). 
Suponha que queiramos segmentar o rio utilizando apenas 
essa imagem (em vez de usar várias imagens multiespec- 
trais, o que simplificaria a tarefa). Uma vez que o rio é uma 
região escura e uniforme da imagem, a limiarização é uma 
abordagem óbvia para iniciar o processo. O resultado da li- 
miarização dessa imagem com o maior valor de limiar pos- 
sível antes de o rio se tornar uma região desconexa aparece 
na Figura 11.27(b). O limiar foi selecionado manualmente 


(a) Imagem na banda infravermelha da área de Washington, D.C. (b) Imagem limiarizada. (c) O maior componente conexo de (b). 


para ilustrar a ideia de que seria impossível, neste caso, seg- 
mentar o rio por si só sem que outras regiões da imagem 
aparecessem também no resultado limiarizado. O objetivo 
deste exemplo é ilustrar como os componentes conexos po- 
dem ser usados para “finalizar” a segmentação. 

A imagem na Figura 11.27(b) possui 1.591 compo- 
nentes conexos (obtidos utilizando conectividade-8) e seu 
número de Euler é 1.552, a partir do qual se deduz que 
o número de buracos é 39. A Figura 11.27(c) mostra o 
componente conexo com o maior número de elementos 
(8.479). Este é o resultado desejado, que já sabemos que 
não pode ser segmentado por si só a partir da imagem uti- 
lizando apenas a limiarização. Observe quão limpo é este 
resultado. Se quiséssemos realizar medidas, como o tama- 
nho de cada ramificação do rio, poderíamos usar o esqueleto 
do componente conexo [Figura 11.27(d)] para fazer isso. 
Em outras palavras, o tamanho de cada ramificação no es- 
queleto seria uma aproximação razoavelmente próxima ao 
tamanho da ramificação do rio que ela representa. 

= 


11.3.3 Textura 


Uma abordagem importante para a descrição de re- 
giões é quantificar seu conteúdo de textura. Embora não 
haja uma definição formal de textura, intuitivamente 
esse descritor fornece medidas de propriedades como sua- 
vidade, rugosidade e regularidade (a Figura 11.28 mostra 
alguns exemplos). As três principais abordagens utilizadas 
no processamento de imagens para descrever a textura de 
uma região são a abordagem estatística, a estrutural e a 
espectral. As abordagens estatísticas produzem caracteri- 
zações das texturas como suave, rugosa, granulada e assim 
por diante. As técnicas estruturais lidam com arranjos de 
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primitivas de imagens, como a descrição de textura base- 
ada em linhas paralelas espaçadas regularmente. As técni- 
cas espectrais estão baseadas em propriedades do espectro 
de Fourier e são usadas principalmente para detectar a pe- 
riodicidade global em uma imagem pela identificação de 
picos de alta energia no espectro. 


Abordagens estatísticas 


Uma das abordagens mais simples para descrever 
uma textura é usar momentos estatísticos do histograma 
de intensidade de uma imagem ou de uma região. Seja z 
uma variável aleatória que denota intensidade e p(z), i = 
0, 1, 2,..., L- 1 o histograma correspondente, em que L é 
o número de níveis distintos de intensidade. Da Equação 
3.3-17, o n-ésimo momento de z em torno da média é 


(11.3-5) 


Veja, na Equação 11.3-4, que u, = 1 e u, = 0. O segun- 
do momento [a variância o?(z) = j1,(Z)] é de particular 
importância na descrição de texturas. Ela fornece uma 
medida de contraste de intensidade que pode ser usada 
para estabelecer descritores de suavidade relativa. Por 
exemplo, a medida 


oe l. 
1+07(z) 


é O para as áreas de intensidade constante (a variância é 
zero se todos os pixels possuírem o mesmo nível de in- 


R(z)=1 (11.3-6) 


Figura 11.28 Os quadrados brancos marcam, da esquerda para a direita, texturas suaves, rugosas e regulares. Estas imagens são de um 
microscópio ótico de um supercondutor, do colesterol humano e de um microprocessador. (Imagem original: cortesia do dr. Michael W. Davidson, 


Universidade Estadual da Flórida.) 
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tensidade) e se aproxima de 1 para grandes valores de 
o?(z). Como os valores de variância tendem a ser grandes 
para imagens em níveis de cinza com valores, por exem- 
plo, no intervalo de 0 a 255, é uma boa ideia normalizar a 
variância para o intervalo [0, 1], para seu uso na Equação 
11.3-6. Isto é feito simplesmente dividindo o?(z) em (L - 1)? 
na Equação 11.3-6. O desvio padrão, o(z), também é usa- 
do frequentemente como uma medida de textura porque 
os valores do desvio padrão tendem a ser mais intuitivos 
para muitas pessoas. 


O terceiro momento, 
(11.3-7) 


é uma medida da assimetria do histograma, enquanto o 
quarto momento é uma medida de quão plano é o histo- 
grama. O quinto momento e os momentos mais elevados 
não estão relacionados tão facilmente com o formato do 
histograma, mas fornecem informação quantitativa adi- 
cional sobre o conteúdo da textura. Algumas medidas 
úteis adicionais de textura baseadas em histogramas in- 
cluem uma medida da “ uniformidade”, dada por 

LA 

U(z)= Are) (11.3-8) 

= 
e uma medida da entropia média, que você deve lembrar 
da teoria básica da informação, é definida como 
p(z;)log, p(z,) (11.3-9) 
Ja que os ps tém valores no intervalo [0, 1] e sua soma é 
igual a 1, a medida U é máxima para uma imagem em que 
todos os níveis de intensidade são iguais (uniformidade 
máxima) e diminui a partir daí. A entropia é uma me- 
dida de variabilidade e é O para uma imagem constante. 


= 
Exemplo 11.10 Medidas de textura baseadas em 
histogramas. 

A Tabela 11.2 resume os valores das medidas prece- 


dentes para os três tipos de texturas destacados na Figura 


11.28. A média apenas nos diz a intensidade média de cada 
região e só é útil como uma ideia aproximada da intensi- 
dade, não da textura propriamente dita. O desvio padrão 
é muito mais informativo; os números comprovam que a 
primeira textura apresenta bem menos variabilidade nos 
níveis de intensidade (é mais suave) do que as outras duas 
texturas. A textura rugosa aparece claramente nesta me- 
dida. Como esperado, os mesmos comentários se aplicam 
para R, porque mede essencialmente a mesma coisa que o 
desvio padrão. O terceiro momento geralmente é útil para 
determinar o grau de simetria dos histogramas e ver se pos- 
suem mais valores do lado esquerdo (valores negativos) ou 
do lado direito (valores positivos). Isto dá uma ideia apro- 
ximada de se os níveis de intensidade têm tendência para 
o lado escuro ou para o lado claro em torno da média. Em 
relação à textura, as informações obtidas a partir do tercei- 
ro momento são úteis apenas quando as variações entre 
as medidas são grandes. Observando a medida da unifor- 
midade, voltamos a concluir que a primeira subimagem 
é mais suave (mais uniforme do que as demais) e que a 
imagem mais aleatória (menor uniformidade) corresponde 
à textura rugosa. Isso não é surpreendente. Finalmente, 
os valores de entropia estão na ordem inversa e, portanto, 
nos levam às mesmas conclusões em relação à medida de 
uniformidade. A primeira subimagem tem a menor varia- 
ção nos níveis de intensidade, e a imagem rugosa, a maior 
variação. A textura regular está entre os dois extremos no 


que diz respeito a essas duas medidas. 
E 


As medidas de textura calculadas apenas a partir 
do histograma não possuem qualquer informação sobre 
a posição relativa dos pixels em relação a outros. Isso é 
importante para descrever a textura e uma maneira de 
incorporar esse tipo de informação no processo de aná- 
lise de textura é considerar não apenas a distribuição de 
intensidades, mas também as posições relativas dos pixels 
em uma imagem. 


Digamos que Q é um operador que define a posição 
de dois pixels um em relação ao outro, e consideremos 
uma imagem, f, com L níveis de intensidade possíveis. 
Digamos que G é uma matriz cujo elemento g, é o nú- 


Tabela 11.2 Medidas de textura para as subimagens mostradas na Figura 11.28. 


Terceiro 
Textura Média Desvio padrão R (normalizado) momento Uniformidade Entropia 
Suave 82,64 11,79 0,002 -0,105 0,026 5,434 
Rugosa 143,56 74,63 0,079 -0,151 0,005 7,183 
Regular 99,72 33,73 0,017 0,750 0,013 6,674 


mero de vezes que os pares de pixels com intensidades 
Z, e z, ocorrem em fna posição definida por Q, em que 
1< i, j< L* Uma matriz formada desta maneira é chamada 
de matriz de co-ocorrência em nível de cinza (ou intensidade). 
Quando o significado é claro, G é chamado simplesmente 
de matriz de co-ocorrência. 


A Figura 11.29 mostra um exemplo de como cons- 
truir uma matriz de co-ocorrência usando L = 8 e um 
operador Q de posição definido como “um pixel ime- 
diatamente à direita” (ou seja, o vizinho de um pixel 
é definido como o pixel imediatamente à sua direita). 
O arranjo à esquerda é uma pequena imagem que está 
sendo analisada e o arranjo à direita é a matriz G. Vemos 
que o elemento (1, 1) de G é 1, porque há apenas uma 
ocorrência em fde um pixel com um valor de 1 com ou- 
tro pixel avaliado com 1 imediatamente à sua direita. Da 
mesma forma, o elemento (6, 2) de G é 3, pois existem 
três ocorrências em f de um pixel com um valor de 6 e 
com um pixel de valor 2 imediatamente à sua direita. Os 
outros elementos de G são calculados da mesma forma. 
Se tivéssemos definido Q como, digamos, “um pixel à 
direita e um pixel acima”, então a posição (1, 1) em G 
teria sido 0, porque não existem casos em f de pixels de 
valor 1 com outro pixel de valor 1 na posição especifica- 
da por Q. Por outro lado, as posições (1,3), (1,5) e (1, 
7) em G seriam todas 1s, já que o valor de intensidade 
1 ocorre em f com os vizinhos de valor 3, 5 e 7 na posi- 
ção especificada por Q, um de cada vez. Como exercício, 


12345678 

#e1]/2/0/0/0/1]1)0 

AD 7|5|3|2 2totolojoj1íi|1/01/0 

sli |6|1/21]5 3aloji/oj1/0/0/01/0 

sis|6|8/1|2 atotojijoj1/0/010 

4|3|4|5|511 st2tolilfoj1ilololo 

si7|8|/76|D——s Hs |oJo|lojolol|1 

7| 8 |G] DG > 7tololofoj1|1/0]2 

stilololo/0|2/|2]1 

Imagem f Matriz de co-ocorrência G 
Figura 11.29 Como gerar uma matriz de co-ocorrência. 


* Observe que estamos usando o intervalo de intensidade [1, L] 
em vez do habitual [0, L — 1]. Isso é feito para que os valores de 
intensidade correspondam com a indexação de matriz “tradicio- 
nal” (ou seja, o valor de intensidade 1 corresponde aos índices da 
primeira linha e coluna de G). 
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você deve calcular todos os elementos de G usando esta 
definição de Q. 

O número de níveis de intensidade possíveis da 
imagem determina o tamanho da matriz G. Para uma ima- 
gem de 8 bits (256 níveis possíveis) G será de 256 x 256. 
Este não é um problema quando se trabalha com uma 
matriz, mas, como mostra o Exemplo 11.11, as matrizes 
de co-ocorrência, por vezes, são usadas em sequências. A 
fim de reduzir a carga computacional, uma metodologia 
utilizada com frequência é quantificar as intensidades 
em algumas faixas, a fim de manter sob controle o tama- 
nho da matriz G. Por exemplo, no caso de 256 intensi- 
dades, podemos deixar os primeiros 32 níveis de inten- 
sidade iguais a 1, os próximos 32 iguais a 2 e assim por 
diante. Isso resultará em uma matriz de co-ocorrência 
de tamanho 8 x 8. 


O número total, n, de pares de pixels que satisfazem 
Q é igual à soma dos elementos de G (n = 30 no exemplo 
anterior). Então, a quantidade 


Py = In 


é uma estimativa da probabilidade que um par de pontos 
que satisfaçam Q tenham valores (z, z). Essas probabili- 
dades estão no intervalo [0, 1] e sua soma é 1: 


K K 
DE =l 


i=1 j=l 


em que K é a dimensao da linha (ou coluna) da matriz 
quadrada G. 


Já que G depende de Q, a presença de padrões de 
textura de intensidade pode ser detectada escolhendo um 
operador de posição adequado e analisando os elementos 
de G. Um conjunto útil de descritores para a caracteriza- 
ção do conteúdo de G é listado na Tabela 11.3. As quan- 
tidades usadas no descritor de correlação (segunda linha 
da tabela) são definidas da seguinte forma: 


E 
K K 
or =) (i-m > P; 
i=l j=l 
K K 
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Tabela 11.3 Descritores utilizados para a caracterização de matrizes de co-ocorrência de tamanho K x K. O termo p, é o /-ésimo termo de G 


dividido pela soma dos elementos de G. 


Descritor Explicação Fórmula 
Probabilidade máxima Mede a resposta mais forte de G. O intervalo de valores é [0, 1]. máx(p;) 
ais ij 
LJ 
Correlação Uma medida do quão correlacionado está um pixel com seu vizinho na K (i—m M —m,)P; 
imagem inteira. O intervalo de valores é de 1 a —1, correspondendo à LE n 
correlação perfeita positiva e perfeita negativa. Esta medida não está | ‘| A ii 
definida se algum dos desvios padrão for zero. o, #00, =0 
Contraste Uma medida do contraste de intensidade entre um pixel e seu vizinho 


em toda a imagem. O intervalo de valores é O (quando G é constante) 
a(K—P. 


Uniformidade (também conhecida 
como Energia) 


Uma medida de uniformidade no intervalo [0, 1]. A uniformidade é 1 
para uma imagem constante. 


Homogeneidade 


Mede a proximidade espacial da distribuição de elementos de G na 
diagonal. O intervalo de valores é [0, 1], com o máximo a ser atingido 
quando G é uma matriz diagonal. 


Entropia 


Mede a aleatoriedade dos elementos de G. A entropia é 0 quando 
todos os p,s são O e é máxima quando todos os ps são iguais. O valor 


Se deixarmos 


K 
P(j)= DP; 
i=l 


então a equação anterior pode ser escrita como 


m, = Siri 


i=] 


K 
m => jP(j) 
j=l 


Éy 


K 
j= 


) 


m 


K 
o =) (i-m)Pli 
o =) (j-mPP() 
j=l 
Em relação às equações 11.3-4, 11.3-5 e suas expli- 
cações, vemos que m, está na forma de uma média cal- 
culada ao longo das linhas de G normalizada e m, é uma 


máximo é 2 log,k . (Veja a Equação 11.3-9 sobre entropia.) 


média calculada ao longo das colunas. Da mesma forma, 
g, eo, estão na forma de desvios padrão (raiz quadrada 
das variâncias) calculados ao longo das linhas e colunas, 
respectivamente. Cada um desses termos é escalar, inde- 
pendentemente do tamanho de G. 


Tenha em mente, ao estudar a Tabela 11.3, que os 
“vizinhos” estão relacionados com a forma em que Q é 
definido (ou seja, eles não têm necessariamente de ser 
adjacentes) e também que os P;S são apenas contagens 
normalizadas do número de vezes que os pixels apre- 
sentaram as intensidades z, e z em fem relação à posição 
especificada em Q. Assim, o que estamos fazendo real- 
mente aqui é tentar encontrar padrões (textura) nessas 
contagens. 


= 
Exemplo 11.11 Usando descritores para caracterizar 


matrizes de co-ocorrência. 


As figuras 11.30(a) a (c) mostram imagens que con- 
têm padrões de pixels aleatórios, horizontalmente periódi- 
cos (seno) e misturados, respectivamente. Este exemplo tem 
dois objetivos: (1) mostrar valores dos descritores na Tabela 
11.3 para as três matrizes de co-ocorrência, G,, G, e G,, 
que correspondem (de cima para baixo) a essas imagens; e 


Figura 11.30 Imagens cujos pixels têm padrões de textura (a) alea- 
tórios, (b) periódicos e (c) mistos. Cada imagem é de 263 x 800 pixels. 


(2) ilustrar como as sequências de matrizes de co-ocorrência 
podem ser usadas para detectar padrões de textura em uma 
imagem. 

A Figura 11.31 mostra matrizes de co-ocorrência G,, 
G, e G, exibidas como imagens. Essas matrizes foram obti- 
das usando L = 256 e o operador de posição “um pixel ime- 
diatamente à direita”. O valor nas coordenadas (i, j) nessas 
imagens é o número de vezes que os pares de pixels com 
intensidades z, e z, ocorrem em fna posição definida por Q, 
então não é surpreendente que a Figura 11.31(a) seja uma 
imagem aleatória, dada a natureza da imagem pela qual ela 
foi obtida. 


A Figura 11.31(b) é mais interessante. A primeira ca- 
racterística evidente é a simetria sobre a diagonal principal. 
Em virtude da simetria da onda senoidal, o número de con- 
tagens para um par (z, z) é o mesmo que aquele do par 
(Z, z), O qual produz uma matriz de co-ocorrências simé- 
trica. Os elementos diferentes de zero em G, são escassos 
porque as diferenças de valor entre os pixels adjacentes ho- 
rizontalmente em uma onda senoidal horizontal são relati- 
vamente pequenos. É bom lembrar, na hora da interpreta- 


Figura 11.31 
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ção desses conceitos, que uma onda senoidal digitalizada é 
uma escada, cuja altura e largura de cada degrau dependem 
da frequência e do número de níveis de amplitude utilizados 
na representação da função. 


A estrutura da matriz de co-ocorrência G, da Figura 
11.31(c) é mais complexa. Valores de contagem altos tam- 
bém são agrupados ao longo da diagonal principal, mas sua 
distribuição é mais densa do que em G, uma proprieda- 
de que sugere uma imagem com variação rica em valores de 
intensidade, mas quase não há grandes variações de in- 
tensidade entre os pixels adjacentes. Examinando a Figura 
11.30(c), vemos que existem grandes áreas caracterizadas 
por uma baixa variabilidade das intensidades. As transições 
de alta intensidade ocorrem nas fronteiras dos objetos, mas 
essas contagens são baixas em relação à contagem das tran- 
sições de intensidade moderada nas grandes áreas e, por 
isso, acabam sendo ocultas pela possibilidade de a imagem 
mostrar, simultaneamente, valores altos e baixos, como dis- 
cutimos no Capítulo 3. 


As observações anteriores são qualitativas. Para quan- 
tificar o “conteúdo” das matrizes de co-ocorrência, precisa- 
mos de descritores como os apresentados na Tabela 11.3. 
A Tabela 11.4 mostra os valores desses descritores calcula- 
dos para as três matrizes de co-ocorrência na Figura 11.31. 
Repare que, para usar esses descritores, as matrizes de co- 
-ocorrência devem ser normalizadas dividindo-as pela 
soma de seus elementos, como discutido anteriormente. As 
entradas na Tabela 11.4 estão de acordo com o esperado a 
partir da análise visual das imagens da Figura 11.30 e suas 
correspondentes matrizes de co-ocorrência na Figura 11.31. 
Por exemplo, considere a coluna de Probabilidade máxima 
na Tabela 11.4. A maior probabilidade corresponde à tercei- 
ra matriz de co-ocorrência, o que nos diz que essa matriz 
tem o maior número de contagens (maior número de pares 
de pixels na imagem relacionada às posições em Q) em re- 
lação às outras duas matrizes. Tal informação está de acordo 
com nossa análise anterior de G,. A segunda coluna indica 
que a maior correlação corresponde a G,, que, por sua vez, 
significa que as intensidades da segunda imagem estão alta- 
mente correlacionadas. A repetição do padrão senoidal na 
Figura 11.30(b) revela por que é assim. Repare que a cor- 
relação de G, é essencialmente zero, indicando que prati- 


Matrizes de co-ocorrência 256 x 256, G,, G, e G,, correspondendo da esquerda para a direita às imagens na Figura 11.30. 
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Tabela 11.4 Descritores avaliados usando as matrizes de co-ocorrência indicadas na Figura 11.31. 


Matriz de co- Descritor 

ocorrência | Probabilidade 

normalizada máxima Correlação Contraste Uniformidade | Homogeneidade Entropia 
G,/n, 0,00006 —0,0005 10.838 0,00002 0,0366 15,75 
G,/n, 0,01500 0,9650 570 0,01230 0,0824 6,43 
G/n, 0,06860 0,8798 1.356 0,00480 0,2048 13,58 


camente não há correlação entre os pixels adjacentes, uma 
característica de imagens aleatórias, como a imagem da Fi- 
gura 11.30(a). 


O descritor de contraste é o maior para G, e o menor 
para G,. Assim, vemos que, quanto menos aleatória for uma 
imagem, menor será seu contraste. Podemos entender isso 
estudando as matrizes indicadas na Figura 11.31. Os termos 
(i - j)” são diferenças de inteiros para 1 < i, j < Le, por isso, 
são os mesmos para qualquer G. Portanto, as probabilidades 
nos elementos das matrizes de co-ocorrência normalizadas 
são os fatores que determinam o valor de contraste. Apesar 
de G, ter a menor probabilidade máxima, as outras duas ma- 
trizes têm muito mais probabilidades zero ou quase zero (as 
áreas escuras da Figura 11.31). Tendo em mente que a soma 
dos valores de G/n é 1, é fácil ver por que o descritor de con- 
traste tende a aumentar como uma função da aleatoriedade. 


Os três indicadores restantes são explicados de ma- 
neira semelhante. A uniformidade aumenta em função do 
quadrado dos valores das probabilidades. Assim, quanto 
menos aleatoriedade houver em uma imagem, maior será 
o descritor de uniformidade, como mostra a quinta coluna 
da Tabela 11.4. A homogeneidade mede a concentração de 
valores de G em relação à diagonal principal. Os valores 
do termo denominador (1 + li- jl) são as mesmas para todas 
as três matrizes de co-ocorrência e diminuem à medida que 
os valores de i e j se aproximam (ou seja, mais próximo da 
diagonal principal). Assim, a matriz com os maiores valores 
de probabilidades (termos numeradores) perto da diagonal 
principal terá um valor de homogeneidade mais elevado. 
Como discutimos anteriormente, essa matriz corresponderá 
às imagens com conteúdo “rico” em tons de cinza e áreas de 
valores de intensidade ligeiramente diferentes. As entradas 
na sexta coluna da Tabela 11.4 são consistentes com essa 
interpretação. 

As entradas na última coluna da tabela são medidas 
de aleatoriedade em matrizes de co-ocorrência que, por sua 
vez, se traduzem em medidas de aleatoriedade nas imagens 
correspondentes. Como esperado, G, teve o valor mais ele- 
vado porque a imagem da qual foi derivado era totalmente 
aleatória. As outras duas entradas são autoexplicativas. Re- 
pare que a medida de entropia de G, está perto do máxi- 
mo teórico de 16 (2 log, 256 = 16). A imagem na Figura 
11.30(a) é composta de ruído uniforme, de modo que cada 


nível de intensidade tem quase a mesma probabilidade de 
ocorrência, que é a condição estabelecida na Tabela 11.3 
para a entropia máxima. 


Até agora, lidamos com imagens simples e suas ma- 
trizes de co-ocorrência. Suponha que queiramos “desco- 
brir” (sem olhar para as imagens) se existem seções nessas 
imagens que contenham componentes repetitivos (ou seja, 
texturas periódicas). Uma maneira de alcançar esse objeti- 
vo é examinar o descritor de correlação para as sequências 
de matrizes de co-ocorrência, derivadas dessas imagens au- 
mentando a distância entre os vizinhos. Como mencionado 
anteriormente, é habitual quando se trabalha com sequên- 
cias de matrizes de co-ocorrência quantificar o número de 
intensidades a fim de reduzir o tamanho da matriz e a carga 
computacional correspondente. Os seguintes resultados fo- 
ram obtidos com L = 8. 


A Figura 11.32 mostra gráficos dos descritores de cor- 
relação como uma função do “offset” horizontal (isto é, a 
distância horizontal entre os vizinhos) de 1 (para pixels ad- 
jacentes) a 50. A Figura 11.32(a) mostra que todos os valo- 
res de correlação estão próximos de 0, indicando que esses 
padrões não foram encontrados na imagem aleatória. A for- 
ma da correlação na Figura 11.32(b) é uma clara indicação 
de que a imagem de entrada é senoidal na direção horizon- 
tal. Note que a função de correlação começa com um valor 
elevado e, em seguida, decai conforme a distância entre os 
vizinhos aumenta, e depois o ciclo se repete. 


A Figura 11.32(c) mostra que o descritor de correlação 
associado à imagem da placa de circuitos diminui inicialmen- 
te, mas tem um pico forte para uma distância de desloca- 
mento de 16 pixels. A análise da imagem na Figura 11.30(c) 
mostra que as juntas superiores de solda formam um padrão 
repetitivo de aproximadamente 16 pixels de distância (veja a 
Figura 11.33). O próximo pico principal se encontra na posi- 
ção 32, causado pelo mesmo padrão, mas a amplitude do pico 
é menor porque o número de repetições a esta distância é in- 
ferior a 16 pixels. Uma observação semelhante explica ainda 
o pico menor em um deslocamento de 48 pixels. 

E 


* Existem outros padrões repetitivos na imagem, mas eles foram 
obscurecidos pela quantização, que passou de 256 níveis de in- 
tensidade para apenas 8. 


Representação e descrição 551 


Correlação 
o 
= itn 
| 
| 


| 
o 
in 
| 


1 10 20 30 40 50 1 10 


Deslocamento horizontal 


Deslocamento horizontal 


30 40 50 1 10 20 30 40 50 


Deslocamento horizontal 


Figura 11.32 Valores do descritor de correlação como uma função do deslocamento (distância entre pixels “adjacentes”) correspondente a (a) 


imagens ruidosas, (b) senoidais e (c) de circuito na Figura 11.30. 


Abordagens estruturais 


Como mencionado no início desta seção, uma se- 
gunda categoria de descrição de textura está baseada nos 
conceitos estruturais. Suponha que tenhamos uma regra 
da forma S > aS, que indica que o símbolo S poderá ser 
rescrito como as (por exemplo, três aplicações desta regra 
produziriam a cadeia aaaS). Se a representa um círculo 
(Figura 11.34(a)) e o significado de “círculos para a di- 
reita” é atribuído a uma string de caracteres do tipo aaa ..., 
então a regra S — aS permite a geração do padrão de tex- 
tura mostrado na Figura 11.34(b). 


Suponha, em seguida, que adicionamos algumas 
regras novas a esse esquema: S > bA, AS cA, A> c, 
A > bS, S— a, onde a presença de um b significa “círculo 
abaixo”, e a presença de c, “círculo à esquerda”. Agora 
podemos gerar uma string de caracteres da forma aaabc- 
chaa que corresponde a uma matriz 3 x 3 de círculos. 
Podemos gerar facilmente padrões de textura maiores, 
como os da Figura 11.34(c), da mesma forma. (Repare, 
entretanto, que estas regras também podem gerar estru- 
turas não retangulares.) 


A ideia básica na discussão anterior é que uma “pri- 
mitiva de textura” simples pode ser usada para formar 
padrões de textura mais complexos por meio de algumas 
regras que limitam o número de combinações possíveis 
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Figura 11.33 Uma seção ampliada da imagem de uma placa de cir- 
cuito impresso mostrando a periodicidade dos componentes. 


da(s) primitiva(s). Esses conceitos estão no cerne das des- 
crições relacionais, um tema que tratamos com mais de- 
talhes na Seção 11.5. 


Abordagens espectrais 


Como discutido na Seção 5.4, o espectro de Fou- 
rier é idealmente adaptado para a descrição da orientação 
de padrões 2-D periódicos ou quase periódicos em uma 
imagem. Esses padrões globais de textura são facilmente 
distinguíveis como concentrações de agrupamentos de 
alta energia no espectro. Aqui, vamos considerar três ca- 
racterísticas do espectro de Fourier que são úteis para a 
descrição da textura: (1) picos no espectro fornecem a di- 
reção principal dos padrões de textura. (2) A localização 
dos picos no plano de frequências fornece o período espa- 
cial fundamental dos padrões. (3) A eliminação de quais- 
quer componentes periódicos através de filtragem deixa 


Figura 11.34 (a) Textura primitiva. (b) Padrão gerado pela regra S 
— aS. (c) Padrão 2-D de textura gerado por esta e outras regras. 
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os elementos não periódicos na imagem, que podem ser 
descritos por meio de técnicas estatísticas. Lembre-se de 
que o espectro é simétrico em torno da origem e, por 
isso, somente a metade do plano de frequência deve ser 
considerado. Assim, para efeitos de análise, cada padrão 
periódico é associado a apenas um pico no espectro, em 
vez de dois. 


A detecção e a interpretação das características do 
espectro mencionadas são frequentemente simplificadas 
expressando-se o espectro em coordenadas polares para 
produzir uma função S(r, 0), em que S é uma função de 
espectro e r e 0 são variáveis nesse sistema de coordena- 
das. Para cada direção 0, S(r, 0) pode ser considerada uma 
função 1-D S,(r). Do mesmo modo, para cada frequência 
r, S (0) é uma função 1-D. Analisar S (r) para um valor 
fixo de 0 produz o comportamento do espectro (como a 
presença de picos) ao longo de uma direção radial a partir 
da origem, enquanto a análise de S (0) para um valor fixo 
de r produz o comportamento ao longo de um círculo 
centrado na origem. 

Uma descrição mais global é obtida por meio da in- 
tegração (soma de variáveis discretas) destas funções: 


S(r)=5°5S,(r) (11.3-10) 
A 0=0 
s(9)=5"5,(0) (11.3-11) 


na qual R, é o raio de um círculo centrado na origem. 


Os resultados das equações 11.3-10 e 11.3-11 cons- 
tituem um par de valores [S(r), S(@)] para cada par de 
coordenadas (r, 0). Variando essas coordenadas, podemos 
gerar duas funções 1-D, S(r) e S(0), que constituem des- 
crições de energia espectral da textura para uma imagem 
inteira ou uma região estudada. Além disso, os descritores 
dessas funções podem ser calculados para uma caracteri- 
zação quantitativa. Os descritores normalmente usados 
para este fim são a posição do valor mais alto, a média e a 
variância da amplitude e as variações axiais e a distância 
entre a média e o maior valor da função. 


E 
Exemplo 11.12 Textura espectral 


A Figura 11.35(a) mostra uma imagem que contém 
palitos de fósforo distribuídos de forma aleatória, e a Figura 
11.35(b) mostra uma imagem em que esses objetos são orga- 
nizados periodicamente. As figuras 11.35(c) e (d) mostram 
os espectros de Fourier correspondentes. Os agrupamentos 


periódicos de energia que se estendem quadrilateralmen- 
te em duas dimensões em ambos os espectros de Fourier 
devem-se à textura periódica do material rugoso de fundo 
sobre o qual se encontram os palitos de fósforo. Os outros 
componentes dominantes nos espectros da Figura 11.35(c) 
são causados pela orientação aleatória das bordas do objeto 
na Figura 11.35(a). Por outro lado, a energia principal na 
Figura 11.35(d) não associada com o fundo encontra-se ao 
longo do eixo horizontal, o que corresponde às fortes bordas 
verticais na Figura 11.35(b). 

As figuras 11.36(a) e (b) são imagens de S(r) e S(@) 
para os palitos de fósforo aleatórios e de forma similar em 
(c) e (d) para os palitos ordenados. A imagem de S(r) para os 
palitos aleatórios não apresenta fortes componentes periódi- 
cos (ou seja, não há picos dominantes no espectro além do 
pico na origem, que é o componente dc). Inversamente, a 
imagem de S(r) para os palitos ordenados apresenta um pico 
forte próximo a r= 15 e um menor próximo a 7 = 25, cor- 
respondente à repetição periódica horizontal das regiões cla- 
ras (palitos de fósforo) e escuras (fundo) na Figura 11.35(b). 
Do mesmo modo, a natureza aleatória dos agrupamentos de 
energia na Figura 11.35(c) é bastante evidente no gráfico 
de S(0) apresentado na Figura 11.36(b). Em contrapartida, 
o gráfico na Figura 11.36(d) mostra fortes componentes de 
energia na região próxima à origem e em 90º e 180º. Isso 
é consistente com a distribuição de energia do espectro na 
Figura 11.35(d). 

= 


11.3.4 Momentos invariantes 


O momento 2-D de ordem (p + q) de uma imagem 
digital f(x, y) de tamanho M x N é definido como 


MA 


m =D xy" f(x,y) 


x=0 y=0 


(11.3-12) 


em que p= 0, 1, 2, ...e g=0, 1, 2, ... sao inteiros. O momento 
central correspondente de ordem (p + q) é definido como 


MA NA 


Usa DD AX XP (TV f(x,y) (113-13) 
x=0 y=0 
para p = 0, 1, 2, ... e q = 0, 1, 2, ... sendo 
z= e y=-Cu (11.3-14) 
m m 


00 
Os momentos centrais normalizados, chamados My SAO 
definidos como 


00 


(11.3-15) 


sendo 


(11.3-16) 


para p +q = 2, 3,.... 


ZN 
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Figura 11.35 (a) e (b) Imagens de objetos aleatórios e ordenados. (c) e (d) Espectros de Fourier correspondentes. Todas as imagens são de 


600 x 600 pixels. 
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Figura 11.36 Gráficos de (a) S(r) e (b) S(0) para a Figura 11.35(a). (c) e (d) são gráficos de S(r) e S(9) para a Figura 11.35(b). Todos os eixos 


verticais são x 10º. 
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Um conjunto de sete momentos invariantes pode ser 
derivado a partir dos segundo e terceiro momentos.” 


Pi = No + Ma (11.3-17) 
Py = (My — Mya)” + AMÃ (11.3-18) 
$ = (Mo Mo + By Ma) (11.3-19) 
b, = (Mo + M9)? + (My, Mg)? (11.3-20) 
Qe = (a = 3N) Mho E Ma) ag E Ma)? 


a + NaI + Bm = a) (Mhai E o) 


Batna = iat m] (11.3-21) 
Be = (Mo — Ma Lho + M Mh + Ma] 
+4N, (Mho F Ma) Mhai F o) (11.3-22) 


by = (3%, — Nos) (Mo + Ma) Elo + Ma)? 


Sins Ges) E BN = ha) (Mhi E M) 


(11.3-23) 


Bina Fa) = Ui; ig) | 


Esse conjunto de momentos é invariante a translação, 
mudança de escala, espelhamento (com o sinal de me- 
nos) e rotação. 


= 
Exemplo 11.13 Momentos invariantes. 


O objetivo deste exemplo é calcular e comparar os 
momentos invariantes apresentados anteriormente usando 
a imagem apresentada na Figura 11.37(a). O contorno preto 
(0) foi adicionado para fazer com que todas as imagens neste 
exemplo fossem do mesmo tamanho; os zeros não afetam o 
cálculo dos momentos invariantes. As figuras 11.37(b) até 
(f) mostram a imagem original transladada, redimensionada 
por 0,5 em ambas as dimensões espaciais, espelhada, rota- 
cionada em 45º e em 90º, respectivamente. A Tabela 11.5 
resume os valores dos sete momentos invariantes para es- 
sas seis imagens. Para reduzir o intervalo dinâmico e, as- 
sim, simplificar a interpretação, os valores apresentados são 
sinal(@,) log (161). O valor absoluto é necessário, pois muitos 
dos valores são fracionados e/ou negativos; a função sinal 
preserva o sinal (o interesse aqui está na invariância e nos 
sinais relativos aos momentos e não em seus valores atuais). 
Os dois pontos fundamentais na Tabela 11.5 são: (1) a proxi- 
midade dos valores dos momentos, independente da trans- 


Figura 11.37 
respectivamente. 


(a) Imagem original. (b) a (f) Imagens transladada, redimensionada por 0,5, espelhada, rotacionada em 45º e rotacionada em 90º, 


* A derivação destes resultados envolve conceitos que estão além do escopo desta discussão. O livro de Bell (1965) e o artigo de Hu (1962) 
contêm discussões detalhadas desses conceitos. Para gerar momentos invariantes de ordem superior a 7, veja Flusser (2000). Os momentos 
invariantes podem ser generalizados para n dimensões [Mamistvalov (1998)]. 


Tabela 11.5 Momentos invariantes para as imagens da Figura 11.37. 
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invariante original Transladada | nada por 0,5 | Espelhada em 45º em 90º 
>, 2,8662 2,8662 2,8664 2,8662 2,8662 
d, 7,1265 7,1265 7,1257 7,1265 7,1265 
d; 10,4109 10,4109 10,4047 10,4109 10,4109 
d, 10,3742 10,3742 10,3719 10,3742 10,3742 
ds 21,3674 21,3674 21,3924 21,3674 21,3674 
d, 13,9417 13,9417 13,9383 13,9417 13,9417 
Q, -20,7809 -20,7809 —20,7724 20,7809 -20,7809 


lação, a mudança de escala, espelhamento e rotação; e (2) o 
fato de que o sinal de @, é diferente para a imagem espelhada 
(uma propriedade utilizada na prática para detectar se uma 
imagem foi espelhada). 

E 


11.4 Utilização de componentes 
principais na descrição 

O material discutido nesta seção é aplicável a fron- 
teiras e regiões. Além disso, pode ser usado como base 
para descrever conjuntos de imagens que estão registra- 
dos espacialmente, mas cujos valores de pixels corres- 
pondentes são diferentes (por exemplo, as três imagens 
componentes de uma imagem RGB). Suponha que obte- 
mos as três imagens que compõem uma imagem colorida 
neste padrão. As três imagens podem ser tratadas como 
uma unidade, expressando cada grupo de três pixels cor- 
respondentes como um vetor. Por exemplo, digamos que 
X, X% € x, respectivamente, serão os valores de um pixel 
em cada uma das três imagens que compõem o RGB. Es- 
tes três elementos podem ser expressos na forma de um 
vetor de coluna 3-D, x, em que” 


Este vetor representa um pixel comum em todas as três 
imagens. Se as imagens são de tamanho M x N, haverá 
um total de K = MN vetores 3-D depois de todos os pixels 
terem sido representados desta maneira. Se tivermos n 


* Consulte o site do livro para uma breve revisão sobre vetores e 
matrizes. 


x=)? (11.4-1) 


Ao longo desta seção, assumimos que todos os vetores 
são vetores coluna (isto é, matrizes de ordem n x 1). 
Podemos escrevê-los em uma linha de texto simples, 
expressando-os como x = (x, X,,..., X,)”, sendo que “T” 
indica transposta. 


Podemos tratar os vetores como quantidades ale- 
atórias, assim como fizemos quando construímos um 
histograma de intensidade. A única diferença é que, em 
vez de falar em quantidades como média e variância das 
variáveis aleatórias, agora falamos de vetores médios e ma- 
trizes de covariância dos vetores aleatórios. O vetor médio 
da população é definido como 


(11.4-2) 


em que Ef) é o valor esperado do argumento e o subín- 
dice denotado por m está associado à população dos x 
vetores. Lembre-se que o valor esperado de um vetor 
ou matriz é obtido tomando o valor esperado de cada 
elemento. 


A matriz de covariância da população de vetores é de- 
finida como 


C=Elix-my(x-m)? (11.4-3) 


Como x é n-dimensional, C, e (x —m,)(x —m_,)" são ma- 
trizes de ordem n x n. O elemento c, de C, é a variância 
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de x, o i-€simo componente dos vetores x na população, 
e o elemento c, de C, é a covariancia’ entre os elementos 
x,e x, desses vetores. A matriz C, é real e simétrica. Se os 
elementos x, e x, não estão correlacionados, sua covariân- 
cia é zero e, portanto, c, = ¢, = 0. Todas essas definições se 
reduzem a seus equivalentes unidimensionais familiares 
quando n= 1. 


Para as amostras do vetor K de uma população alea- 
tória, o vetor médio pode ser aproximado a partir das 
amostras usando a expressão de média bastante conhecida 


l K 
m =>) X, (11.4-4) 
Kia 

Da mesma forma, expandindo o produto (x - m,) 

(x - m,)” e usando as equações 11.4-2 e 11.4-4, acharí- 

amos que a matriz de covariância pode ser aproximada a 
partir das amostras como segue: 
1 É T 


= = T 
= X,X, mm, 


11.4-5 
eo ( ) 


= 
Exemplo 11.14 Cálculo do vetor médio e da matriz de 
covariância. 
Para ilustrar o funcionamento das equações 11.4-4 
e 11.4-5, considere os quatro vetores x, = (0, 0, 0)”, x, = 
(1, 0, 0)", x, = (1, 1, 0)” e x, = (1, 0, 1)”. Aplicando a Equa- 
ção 11.4-4, obtemos o vetor médio a seguir: 


mo = 


x 


A|= 


3 
1 
1 


Da mesma forma, usando a Equação 11.4-5, obtemos a ma- 
triz de covariância a seguir: 


2 1 1 

C = i E a | 
* 16 

1 =l 3 


Todos os elementos ao longo da diagonal principal sao iguais, 
o que indica que os três componentes dos vetores na popu- 
lação têm a mesma variância. Além disso, os elementos x, e 
x, bem como x, e x, estão positivamente correlacionados; 
os elementos x, e x, estão negativamente correlacionados. 

E 


Já que € é real e simétrica, encontrar um conjunto 
de n autovetores ortonormais sempre é possível [Noble e 
Daniel (1988)]. Digamos que e e À, i = 1,2,..., n sejam 


Lembre-se que a variância de uma variável aleatória x com média 
m pode ser definida como E ((x— )?). A covariância de duas va- 
riáveis aleatórias x,e x, é definida como E [(x,- m1)(x,— m)). 


os autovetores e os autovalores correspondentes de C,” 
ordenados (por conveniência) em ordem decrescente de 
forma que À > À +, forj=1,2,...n- 1. Digamos que A 
é uma matriz cujas linhas são formadas por autovetores 
de C ordenados de modo que a primeira linha de A é 0 
autovetor correspondente ao maior autovalor e a última 
linha é o autovetor correspondente ao menor autovalor. 


Suponha que usemos A como uma matriz de trans- 
formação para mapear as xs em vetores denominados ys, 
como segue: 


y = A(x-m,) (11.4-6) 


Esta expressão é chamada de transformada de Hotelling,”* 
que, como será mostrado em breve, tem algumas pro- 
priedades interessantes e bastante úteis. 


Não é difícil demonstrar que a média dos vetores y 
resultantes desta transformação é zero; isto é, 


m,=F(y)=0 (11.4-7) 


Como resultado da teoria da matriz basica, sabemos que 
a matriz de covariância dos ys é dada em termos de A e 
C, pela expressão 


C, = ACA" (11.4-8) 


Além disso, em virtude da maneira que A foi construída, 
C, é uma matriz diagonal cujos elementos ao longo da 
diagonal principal são os autovalores de C; isto é, 


0 
(11.4-9) 


0 À 


n 


Os elementos fora da diagonal desta matriz de covariân- 
cia são 0; portanto, os elementos dos vetores y não estão 
correlacionados. Tenha em mente que os Às são os au- 
tovalores de C, e que os elementos ao longo da diagonal 
principal de uma matriz diagonal são os seus autovalores 
[Noble e Daniel (1988)]. Assim, C, e C, possuem os mes- 
mos autovalores. 


Outra propriedade importante da transformada de 
Hotelling tem a ver com a reconstrução de x a partir de y. 
Já que as linhas de A são vetores ortonormais, sabemos 
que A! = A’e qualquer vetor x pode ser recuperado a 
partir do y correspondente usando a expressão 


== A E 

x= A’y+m, (11.4-10) 

* Por definição, os autovetores e os autovalores de uma matriz n x n, 
C, satisfazem a relação Ce, = Ae, para i = 1, 2,..., n. 


“ A transformada de Hotelling é a mesma que a transformada dis- 
creta Karhunen-Loéve [Karhunen (1947)], e os dois nomes sao 
utilizados sem distinção na literatura. 


Suponha, no entanto, que, em vez de usar todos os 
autovetores de C, formamos a matriz A a partir dos k au- 
tovetores correspondentes aos k maiores autovalores, pro- 
duzindo uma matriz de transformação de ordem k x n. Os 
vetores y seriam, então, k dimensionais, e a reconstrução 
dada na Equação 11.4-10 não seria mais exata (isso é um 
tanto análogo ao procedimento utilizado na Seção 11.2.3 
para descrever uma fronteira com poucos coeficientes de 


Fourier). O vetor reconstruído usando A, é 
x=Aly+m, (11.4-11) 


Podemos ver que o erro quadratico médio entre x e x é 
dado pela expressão 


(11.4-12) 


A primeira linha da Equação 11.4-12 indica que o erro é 
zero se k = n (isto é, se todos os autovetores forem utili- 
zados na transformação). Já que os As diminuem mono- 


Figura 11.38 
médio e (f) infravermelho térmico. (Imagem original: cortesia da Nasa.) 
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tonicamente, a Equação 11.4-12 também mostra que o 
erro pode ser minimizado pela seleção dos k autovetores 
associados aos maiores autovalores. Assim, a transforma- 
da de Hotelling é ótima no sentido de que minimiza o 
erro quadrático médio entre os vetores x e suas aproxi- 
mações X. Em razão dessa ideia de usar os autovetores 
correspondentes aos maiores autovalores, a transformada 
de Hotelling também é conhecida como transformada de 
componentes principais. 


m 
Exemplo 11.15 Usando componentes principais para a 
descrição da imagem. 


A Figura 11.38 mostra seis imagens multiespectrais de 
satélite correspondentes a seis bandas espectrais: azul visível 
(450-520 nm), verde visível (520-600 nm), vermelho visí- 
vel (630-690 nm), infravermelho próximo (760-900 nm), 
infravermelho médio (1.550-1.750 nm) e infravermelho 
térmico (10.400-12.500 nm). O objetivo deste exemplo é 
ilustrar como utilizar os componentes principais para des- 
crever a imagem. 


Organizar as imagens como apresentadas na Figura 
11.39 leva à formação de um vetor de seis elementos x = 


Imagens multiespectrais no (a) azul visível, (b) verde visível, (c) vermelho visível, (d) infravermelho próximo, (e) infravermelho 
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Banda espectral 6 


Banda espectral 5 


: 
es... 
copes 

Xı : 

X2 pá : 


x3 Banda espectral 4 


X4 Banda espectral3 


Banda espectral 2 


Banda espectral 1 


Figura 11.39 Formação de um vetor a partir dos pixels correspon- 
dentes em seis imagens. 


(X, Xy- X,)” para cada conjunto de pixels correspondentes 
nas imagens, como discutido no início desta seção. As ima- 
gens apresentadas neste exemplo são de tamanho 564 x 564 
pixels e a população era de (564)? = 318.096 vetores, dos 
quais o vetor médio, a matriz de covariância e os autova- 
lores e autovetores correspondentes foram calculados. Os 
autovetores foram, então, usados como linhas da matriz A e 
um conjunto de vetores y foi obtido usando a Equação 11.4-6. 
Da mesma forma, utilizou-se a Equação 11.4-8 para obter 


Tabela 11.6 Autovalores da matriz de covariância obtidos a partir 
das imagens na Figura 11.38. 


C.A Tabela 11.6 mostra os autovalores desta matriz. Repare 
o predomínio dos dois primeiros autovalores. 


Um conjunto de imagens de componentes princi- 
pais foi gerado utilizando os vetores y mencionados no 
parágrafo anterior (as imagens são construídas a partir dos 
vetores aplicando a Figura 11.39 em sentido inverso). A 
Figura 11.40 mostra os resultados. A Figura 11.40(a) foi 
formada a partir do primeiro componente dos 318.096 ve- 
tores y, a Figura 11.40(b) a partir do segundo componente 
desses vetores e assim por diante; portanto, essas imagens 
são do mesmo tamanho que as imagens originais apre- 
sentadas na Figura 11.38. A característica mais evidente 
nas imagens de componentes principais é que uma parcela 
significativa do detalhe de contraste está contida nas duas 
primeiras imagens e diminui rapidamente a partir desse 
ponto. O motivo pode ser explicado pelos autovalores. 
Como a Tabela 11.6 mostra, os dois primeiros autovalores 


Figura 11.40 As seis imagens de componentes principais obtidas a partir dos vetores calculados utilizando a Equação 11.4-6. Os vetores são 


convertidos em imagens aplicando a Figura 11.39 em sentido inverso. 


são muito maiores do que os outros. Já que os autovalo- 
res indicam as variações dos elementos dos vetores y e a 
variância é uma medida da intensidade do contraste, não 
é de surpreender que as imagens formadas a partir dos 
componentes do vetor correspondentes aos maiores au- 
tovalores apresentem o maior contraste. De fato, as duas 
primeiras imagens na Figura 11.40 são responsáveis por 
cerca de 89% da variância total. As outras quatro imagens 
têm detalhes de baixo contraste, uma vez que represen- 
tam apenas os 11% restantes. 


De acordo com as equações 11.4-11 e 11.4-12, se 
usarmos todos os autovetores da matriz A, poderíamos re- 
construir as imagens originais (vetores) a partir das imagens 
de componentes principais (vetores) com erro zero entre a 
imagem original e a reconstruída.” Ou seja, a imagem ori- 
ginal e a reconstruída seriam idênticas. Se o objetivo fos- 
se armazenar e/ou transmitir as imagens de componentes 
principais e a matriz de transformação para a reconstrução 
posterior das imagens originais, não faria sentido armazenar 
e/ou transmitir todas as imagens de componentes principais, 
uma vez que não haveria ganho algum. Suponha-se, en- 
tretanto, que mantemos e/ou transmitimos apenas as duas 


Figura 11.41 
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imagens de componentes principais (que possuem a maioria 
dos detalhes de contraste). Haveria uma economia signifi- 
cativa de espaço para armazenamento e/ou transmissão (a 
matriz A seria do tamanho de 2 x 6, portanto, seu impacto 
seria insignificante). 


A Figura 11.41 mostra os resultados da reconstrução 
das seis imagens multiespectrais, a partir das duas imagens 
de componentes principais correspondentes aos maiores 
autovalores. As cinco primeiras imagens são muito simila- 
res às originais apresentadas na Figura 11.38, mas isso não 
se aplica à sexta imagem. A razão é que a sexta imagem 
original está realmente borrada, mas as duas imagens de 
componentes principais utilizadas na reconstrução estão 
nítidas; por isso, o “detalhe” borrado acaba se perdendo. 
A Figura 11.42 mostra as diferenças entre a imagem ori- 
ginal e a reconstruída. As imagens na Figura 11.42 foram 
realçadas para destacar as diferenças entre elas. Se fossem 
apresentadas sem o realce, as cinco primeiras imagens se- 
riam quase que totalmente pretas. Como esperado, a sexta 
imagem diferença é a que apresenta a maior variabilidade. 

E 


Imagens multiespectrais reconstruídas a partir das duas imagens de componentes principais correspondentes às duas imagens 


de componentes principais com os maiores autovalores (variância). Compare estas imagens com os originais na Figura 11.38. 


texto presente. 


Ao se referir a imagens, usamos o termo “vetores” indiferentemente porque há uma correspondência um-para-um entre os dois no con- 
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= E 
an 


Figura 11.42 Diferenças entre a imagem original e as imagens reconstruídas. Para facilitar a visualização, todas as imagens de diferença foram 


realçadas ajustando-as para o intervalo [0, 255]. 


E 

Exemplo 11.16 Usando componentes principais para a 
normalização com relação às variações 
no tamanho, na translação e na rotação. 


Como mencionado anteriormente neste capítulo, a 
representação e a descrição devem ser tão independentes 
quanto possível no que diz respeito ao tamanho, à transla- 
ção e à rotação. Os componentes principais fornecem uma 
maneira conveniente de normalizar as fronteiras e/ou re- 
giões para as variações desses três parâmetros. Considere 
o objeto na Figura 11.43 e suponha que seu tamanho, lo- 
calização e orientação (rotação) são valores arbitrários. Os 
pontos na região (ou na sua fronteira) podem ser tratados 
como vetores bidimensionais, x = (x, x,)”, em que x, € x, são 
os valores das coordenadas de qualquer ponto ao longo dos 
eixos x, e x, respectivamente. Todos os pontos em uma re- 
gião ou fronteira constituem uma população de vetores 2-D 
que podem ser usados para calcular a matriz de covariância 
C, e o vetor médio m,, como antes. Um autovetor de C, 
aponta na direção da variância máxima (espalhamento dos 
dados) da população, enquanto o segundo autovetor é per- 
pendicular ao primeiro, como mostra a Figura 11.43(b). Em 
termos da presente discussão, a transformada principal de 
componentes na Equação 11.4-6 realiza duas coisas: (1) es- 
tabelece o centro do sistema de coordenadas transformadas 
no centro de gravidade (média) da população, porque m, é 
subtraído de cada x; e (2) as coordenadas y (vetores) que ele 


gera são versões rotacionadas de x, de forma que os dados 
se alinhem com os autovetores. Se definirmos um sistema 
de eixos (y,, y,), de forma que y, esteja ao longo do primeiro 
autovetor e y, ao longo do segundo, então a geometria que 
resulta é a ilustrada na Figura 11.43(c).“ Isto é, as direções 
dos dados dominantes estão alinhadas com o sistema de ei- 
xos. O mesmo resultado será obtido independentemente do 
tamanho, translação ou rotação do objeto, desde que todos 
os pontos na região da fronteira passem pelas mesmas alte- 
rações. Se quiséssemos normalizar os dados transformados 
pelo tamanho, deveríamos dividir as coordenadas pelos au- 
tovalores correspondentes. 


Observe, na Figura 11.43(c), que os pontos no sis- 
tema de eixos y podem ter valores tanto positivos quanto 
negativos. Para converter todas as coordenadas para valo- 
res positivos, basta subtrair 0 vetor (J, min Yamin)’ de todos os 
vetores y. Para deslocar os pontos resultantes de modo que 
todos eles sejam maiores que 0, como na Figura 11.43(d), 
podemos acrescentar-lhes um vetor (a, b)” em que ae b são 
maiores que 0. 


O sistema do eixo y poderia estar em uma direção de 180º oposta 
ao sentido mostrado na Figura 11.43(c), dependendo da orienta- 
ção do objeto original. Por exemplo, se o nariz do avião na Figura 
11.43(a) apontasse na direção oposta, os autovetores resultantes 
apontariam para a esquerda e para baixo. 


a x 
4 
>= X1 
C y2 
4 
Centroide 
» y1 


Figura 11.43 
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b x 


4 
Direção perpendicular 
à direção de 
variância máxima 
ez 
& 


Direção 
da variância 
máxima 


>= X1 


= ya 


(a) Um objeto. (b) Objeto mostrando autovetores de sua matriz de covariância. (c) Objeto transformado a partir da Equação 11.4-6. 


(d) Objeto transladado para que todos os seus valores de coordenadas sejam maiores que 0. 


Apesar de a discussão anterior ser simples em princt- 
pio, a mecânica é uma fonte comum de confusão. Assim, 
concluímos este exemplo com uma ilustração manual sim- 
ples. A Figura 11.44(a) mostra quatro pontos com coorde- 
nadas (1, 1), (2, 4), (4,2) e (5,5). O vetor médio, a matriz 
de covariância e os autovetores normalizados (comprimento 
da unidade) dessa população são 


3,333 2,00 
2,00 3,333 


x 


0,707 
0,707 


—0,707 
0,707 


e = 


1 | €,= 


Os autovalores correspondentes são À, = 5,333 e A = 1,333. 
A Figura 11.44(b) mostra os autovetores sobrepostos sobre 
os dados. Os pontos transformados (y) são obtidos a par- 


tir da Equação 11.4-6: (-2,828; 0), (0; 1,414), (0; -1,414) 
e (2,828; 0). Estes pontos estão representados na Figura 
11.44(c). Repare que eles estão alinhados com os eixos y 
e possuem valores fracionados. Ao trabalhar com imagens, 
os valores geralmente são inteiros, tornando-se necessário 
arredondar todas as frações para o inteiro mais próximo. A 
Figura 11.44(d) mostra os pontos já com os valores arre- 
dondados para o número inteiro mais próximo e sua nova 
localização, já com todos os valores de coordenadas inteiros 
e maiores que 0, como na figura original. 

= 


11.5 Descritores relacionais 


Introduzimos na Seção 11.3.3 0 conceito de rescre- 
ver as regras para descrever a textura. Nesta seção, vamos 
expandir esse conceito no contexto dos descritores rela- 
cionais. Estes se aplicam igualmente bem às fronteiras ou 
às regiões e seu principal objetivo é captar, rescrevendo 
regras básicas, os padrões repetitivos em uma fronteira 
ou uma região. 


Considere a estrutura de escada simples mostrada 
na Figura 11.45(a). Suponha que esta estrutura tenha 
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Figura 11.44 Um exemplo manual. (a) Pontos originais. (b) Autovetores da matriz de covariância dos pontos em (a). (c) Pontos transformados 
obtidos usando a Equação 11.4-6. (d) Pontos de (c), arredondados e transladados para que todos os valores das coordenadas sejam números 
inteiros maiores que 0. As linhas tracejadas foram incluídas para facilitar a visualização. Não fazem parte dos dados. 


sido segmentada a partir de uma imagem e que queremos 
descrevê-la de alguma maneira formal. Ao definir os dois 
elementos primitivos a e b mostrados, podemos codificar a 
Figura 11.45(a) na forma mostrada na Figura 11.45(b). 
A propriedade mais óbvia da estrutura codificada é a ca- 
pacidade de repetição dos elementos a e b. Portanto, uma 
abordagem simples de descrição é formular uma relação 
recursiva envolvendo esses elementos primitivos. Uma 
possibilidade é usar o método de regras de rescrita: 


l. S— aA, 


no qual Se A sao variáveis, e os elementos a e b são 
constantes correspondendo às primitivas definidas re- 
centemente. A Regra 1 indica que S, chamado de símbolo 
inicial, pode ser substituído pela primitiva a e a variável 
A. Esta variável, por sua vez, pode ser substituída por b 
e S ou somente por b. Substituir A por bS leva de volta 
à primeira regra e o procedimento pode ser repetido. 
Substituir 4 por b termina o procedimento, uma vez que 
não restaram variáveis na expressão. A Figura 11.46 
ilustra alguns exemplos de derivação dessas regras, sen- 
do que os números abaixo das estruturas representam a 
ordem em que as regras 1, 2 e 3 foram aplicadas. A rela- 


2. A—DbS,e 
3. 45, 
a a 
Figura 11.45 (a) Uma simples estrutura como uma escada. (b) Estrutura codificada. 


a a a 


b b b 
(1,3) 2 a 
b b 
(1, 2, 1, 3) E 
b 
(1,2,1,2,1,3) 


Figura 11.46 Exemplos de derivação das regras S — aA, A — bS 
eA> b. 


ção entre a e b é mantida porque essas normas obrigam 
que a seja sempre seguido por um b. Notavelmente, 
essas três regras simples de rescrita podem ser usadas 
para gerar (ou descrever) um número infinito de estru- 
turas semelhantes. 


Já que os strings são estruturas 1-D, sua aplicação 
na descrição de imagens requer o estabelecimento de um 
método adequado para a redução de relações de posição 
2-D para a forma 1-D. A maioria das aplicações de strings na 
descrição de imagens baseia-se na extração de segmentos de 
linhas conectados a partir dos objetos de interesse. Uma 
abordagem é seguir o contorno de um objeto e codificar o 
resultado com segmentos de direção e/ou tamanho espe- 
cíficos. A Figura 11.47 ilustra este procedimento. 


Outra abordagem um pouco mais geral é descrever 
partes de uma imagem (pequenas regiões homogêneas, 
por exemplo) por segmentos de linha direcionados, que 
podem ser unidos de maneiras diferentes das conexões 
do tipo “cabeça à cauda”. A Figura 11.48(a) ilustra essa 
metodologia e a Figura 11.48(b) mostra algumas opera- 
ções típicas que podem ser definidas em primitivas abs- 
traídas. A Figura 11.48(c) mostra um conjunto de pri- 
mitivas específicas, composto por segmentos de linhas 
definidas em quatro direções, e a Figura 11.48(d) mostra 


di Contorno 


Ponto de 
partida ™N, 


Região 


Figura 11.47 Codificando a fronteira de uma região com segmentos 
de linha orientados. 
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a geração passo a passo de uma forma específica, em que 
(~d) indica a primitiva d com seu sentido invertido. Re- 
pare que cada estrutura composta tem uma única cabeça 
e uma única cauda. O resultado de interesse é a última 
string, que descreve a estrutura completa. 


Descritores de strings são mais bem adaptados para 
aplicações em que a conectividade das primitivas pode 
ser expressa na forma “cabeça à cauda”, ou alguma outra 
forma contínua. Às vezes, as regiões que são semelhantes 
em termos de textura ou outros descritores podem não 
ser contíguas e é necessário usar técnicas para descrever 
tais situações. Uma das abordagens mais úteis para fazer 
isso é utilizar descritores tipo árvore. 


Uma árvore T é um conjunto finito de um ou mais 
nós para os quais 
(a) há um único nó $ chamado raiz, e 


(b)os nós restantes são divididos em m conjuntos 
disjuntos T,,...,7,, cada um, por sua vez, é uma ár- 
vore chamada subárvore de T. 


A fronteira da árvore é o conjunto de nós na parte inferior 
da árvore (as folhas), tomados na ordem da esquerda para 
a direita. Por exemplo, a árvore da Figura 11.49 possui 
raiz $ e fronteira (folhas) xy. 


Geralmente, dois tipos de informação em uma árvore 
são importantes: (1) informações sobre um nó armazena- 
das como um conjunto de palavras que descrevem aquele 
nó; e (2) informação que relaciona um nó com seus vizi- 
nhos, armazenadas como um conjunto de ponteiros para 
aqueles nós. Como utilizado na descrição da imagem, o 
primeiro tipo de informação identifica uma subestrutura 
da imagem (por exemplo, uma região ou um segmento 
de fronteira), enquanto o segundo tipo define a relação 
física dessa subestrutura com outras subestruturas. Por 
exemplo, a Figura 11.50(a) pode ser representada por 
uma árvore utilizando a relação “dentro de”. Assim, se a 
raiz da árvore é chamada $, a Figura 11.50a mostra que o 
primeiro nível de complexidade envolve a e c dentro de $, 
a qual produz duas ramificações (galhos) a partir da raiz, 
como mostrado na Figura 11.50(b). O nível seguinte en- 
volve b dentro de a, de e dentro de c. Finalmente, fdentro 
de e completa a árvore. 


Resumo 


A representação e a descrição de objetos ou regiões 
que tenham sido segmentadas em uma imagem são passos 
preliminares na maioria dos sistemas de análise automá- 
tica de imagens. Essas descrições, por exemplo, consti- 
tuem a entrada para os métodos de reconhecimento de 
objetos desenvolvidos no capítulo seguinte. Como indi- 
cado pelo espectro de técnicas de descrição abordadas 
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Figura 11.48 
uma estrutura. 


neste capítulo, a escolha de um método em detrimento 
de outro é determinada pelo problema em questão. O ob- 
jetivo é escolher descritores que “capturem” as diferenças 
essenciais entre os objetos ou classes de objetos, manten- 
do a independência sempre que possível com respeito às 
mudanças na localização, no tamanho e na orientação. 


Referências e leitura suplementar 

O algoritmo de acompanhamento de fronteiras na 
Seção 11.1.1 foi inicialmente proposto por Moore (1968). 
A representação de código da cadeia discutida na Seção 
11.1.2 foi proposta por Freeman (1961, 1974). Para o tra- 
balho atual usando códigos da cadeia, consulte Bribiesca 


a 
/ 


x 


Figura 11.49 Uma árvore simples com raiz $ e fronteira xy 
(folhas). 


E | 


d+ [c + (~d)] 


{d + [c + (~d)]} *[(a + b) «c] 


(a) Primitivas abstraídas. (b) Operações entre as primitivas. (c) Conjunto de primitivas específicas. (d) Etapas na construção de 


(1999), que também ampliou os códigos da cadeia para 
3-D [Bribiesca (2000)]. Para uma discussão detalhada e 
para ver o algoritmo para calcular os polígonos de perí- 
metro mínimo (Seção 11.1.3), consulte Klette e Rosen- 
feld (2004). Veja também Sloboda et al. (1998) e Coeur- 
jolly e Klette (2004). Outros assuntos de interesse para 
o material na Seção 11.1.4 incluem o ajuste poligonal 
invariante [Voss e Suesse (1997)], métodos para avaliar 


IN 
“A 


f 


Figura 11.50 (a) Uma região composta simples. (b) Representação 
por árvore obtida pela utilização da relação “dentro de”. 


o desempenho de algoritmos de aproximação poligonal 
[Rosin (1997)], implementações genéricas [Huang e Sun 
(1999)] e velocidade computacional [Davis (1999)]. 


Referências para a discussão das assinaturas (Se- 
ção 11.1.5) podem ser encontradas em Ballard e Brown 
(1982) e Gupta e Srinath (1988). Veja Preparata e Sha- 
mos (1985) em relação às formulações fundamentais 
para encontrar o fecho convexo e a deficiência convexa 
(Seção 11.1.6). Veja também o artigo de Liu-Yu e Anti- 
polis (1993). Katzir et al. (1994) discutem a detecção de 
curvas parcialmente ocluídas. Zimmer et al. (1997) discu- 
tem um algoritmo melhorado para calcular o fecho con- 
vexo e Latecki e Lakâmper (1999) discutem uma regra de 
convexidade para a decomposição de formatos. 


O algoritmo de esqueletização discutido na Seção 
11.1.7 está baseado em Zhang e Suen (1984). Alguns 
comentários adicionais úteis sobre as propriedades e a 
aplicação deste algoritmo podem ser encontrados em um 
artigo de Lu e Wang (1986). Um documento feito por 
Jang e Chin (1990) oferece um vínculo interessante entre 
a discussão na Seção 11.1.7 e o conceito morfológico de 
afinamento introduzido na Seção 9.5.5. Para as aborda- 
gens de afinamento na presença de ruído, consulte Shi e 
Wong (1994) e Chen e Yu (1996). Shaked e Bruckstein 
(1998) discutem um algoritmo de poda útil para remover 
componentes parasitas de um esqueleto. A computação 
rápida da transformada do eixo médio é discutida por 
Sahni e Jenq (1992) e por Ferreira e Ubéda (1999). O 
estudo de Loncaric (1998) é interessante para muitas das 
abordagens discutidas na Seção 11.1. 


Freeman e Shapira (1975) apresentam um algorit- 
mo para encontrar o retângulo básico de uma curva fe- 
chada codificada com cadeia (Seção 11.2.1). A discussão 
sobre os números do formato na Seção 11.2.2 está base- 
ada na obra de Bribiesca e Guzman (1980) e Bribiesca 
(1981). Para uma leitura adicional sobre os descritores de 
Fourier (Seção 11.2.3), consulte os documentos pionei- 
ros de Zahn e Roskies (1972) e Persoon e Fu (1977). Veja 
também Aguado et al. (1998) e Sonka et al. (1999). Reddy 
e Chatterji (1996) discutem uma abordagem interessante 
usando o FFT para alcançar a invariância na translação, 
rotação e mudança de escala. O material na Seção 11.2.4 
baseia-se na teoria da probabilidade elementar [ver, por 
exemplo, Peebles (1993) e Popoulis (1991)]. 


Para uma leitura adicional sobre a Seção 11.3.2, con- 
sulte Rosenfeld e Kak (1982) e Ballard e Brown (1982). 
Para uma excelente introdução à textura (Seção 11.3.3), 
consulte Haralick e Shapiro (1992). Para um estudo in- 
trodutório sobre textura, consulte Wechsler (1980). Os 
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artigos feitos por Murino et al. (1998) e Garcia (1999) e a 
discussão de Shapiro e Stockman (2001) são representa- 
tivas dos trabalhos em curso nesta área. 


A abordagem de momentos invariantes, discutida 
na Seção 11.3.4, é de Hu (1962). Consulte também Bell 
(1965). Para se ter uma ideia da variedade de aplicações 
de momentos invariantes, consulte Hall (1979), a res- 
peito do casamento de imagem e Cheung e Teoh (1999) 
sobre o uso de momentos para descrever a simetria. Os 
momentos invariantes foram generalizados para n di- 
mensões por Mamistvalov (1998). Para gerar momentos 
de ordem arbitrária, consulte Flusser (2000). 


Hotelling (1933) foi o primeiro a obter e publicar 
a metodologia que transforma variáveis discretas em coe- 
ficientes não correlacionados. Ele batizou esta técnica 
com o nome de método de componentes principais. Seu artigo 
oferece um entendimento claro do método e sua leitura 
vale a pena. A transformada de Hotelling foi redescoberta 
por Kramer e Mathews (1956) e por Huang e Schultheiss 
(1963). Os componentes principais são ainda uma fer- 
ramenta fundamental para a descrição de imagens e são 
utilizados em inúmeras aplicações, como mostram Weng 
e Swets (1996) e Duda, Heart e Stork (2001). As refe- 
rências para o material na Seção 11.5 são de Gonzalez e 
Thomason (1978) e Fu (1982). Veja também Sonka et al. 
(1999). Para uma leitura adicional sobre os tópicos deste 
capítulo, mas focando na implementação, consulte Nixon 
e Aguado (2002) e Gonzalez, Woods e Eddins (2004). 


Exercícios 


11.1 *(a) Mostre que redefinir o ponto de partida de um 
código da cadeia, de modo que a sequência re- 
sultante dos números forma um número inteiro 
de magnitude mínima que faz com que o código 
seja independente do ponto inicial de partida da 
fronteira. 

(b) Encontre o ponto de partida normalizado do có- 
digo 11076765543322. 

11.2 (a) Mostre que a primeira diferença de um código da 
cadeia o normaliza em relação à rotação, como 
explicado na Seção 11.1.2. 

(b) Calcule a primeira diferença do código 
0101030303323232212111. 

11.3 *(a) Mostre que a abordagem de aproximação poli- 
gonal por elástico de borracha discutida na Se- 
ção 11.1.3 produz um polígono com perímetro 
mínimo. 


(b 


<~ 


Mostre que, se cada célula corresponde a um 
pixel da fronteira, o erro máximo possível nes- 
ta célula é V2d, em que d é a mínima distância 
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horizontal ou vertical possível entre os pixels ad- 
jacentes (ou seja, a distância entre as linhas da 
grade de amostragem utilizada para produzir a 
imagem digital). 
11.4 Explique como o algoritmo MPP na Seção 11.1.3 se 
comportaria sob as seguintes condições: 
*(a) 1 pixel de largura, 1 pixel de indentações pro- 
fundas. 


*(b) 1 pixel de largura, 2 pixels ou mais de indenta- 
ções profundas. 


(c) 1 pixel de largura, 1 pixel de saliências longas. 
(d) 1 pixel de largura, n pixels de saliências longas. 


11.5 *(a) Discuta o efeito sobre o polígono resultante se o 
limiar de erro for ajustado igual a zero no méto- 
do de fusão discutido na Seção 11.1.4. 


(b) Qual seria o efeito no método de divisão? 


11.6* (a) Faça o gráfico da assinatura da fronteira de um 
quadrado usando o método de ângulo tangente 
discutido na Seção 11.1.5. 


(b) Repita o procedimento para a função densidade 
da inclinação. 


Assuma que o quadrado está alinhado com o os ei- 
xos x e y e tome o eixo x como linha de referência. 
Comece pelo vértice mais próximo da origem. 


11.7 Encontre uma expressão para a assinatura de cada 
uma das seguintes fronteiras e faça o gráfico das as- 
sinaturas. 


*(a) Um triângulo equilátero 
(b) Um retângulo 
(c) Uma elipse 
11.8 Desenhe o eixo médio de 
*(a) Um círculo 
*(b) Um quadrado 
(c) Um retângulo 
(d) Um triângulo equilátero 
11.9 Para cada uma das figuras apresentadas, 


*(a) discuta as medidas tomadas no ponto p pelo Pas- 
so 1 do algoritmo de esqueletização apresentado 
na Seção 11.1.7; 


(b) repita o procedimento no Passo 2 do algoritmo. 
Suponha que p = 1 em todos os casos. 


11.10 Com referência ao algoritmo de esqueletização da 
Seção 11.1.7, como ficaria a figura exibida após 


*(a) uma passagem do Passo 1 do algoritmo? 


(b) uma passagem do Passo 2 (sobre o resultado do 
Passo 1 e não sobre a imagem original)? 


ee 
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11.11 *(a) Qual é a ordem do número do formato para a 
figura indicada? 


(b) Obtenha o número do formato. 


11.12 O processo discutido na Seção 11.2.3 para a utiliza- 
ção de descritores de Fourier consiste em expressar 
as coordenadas de um contorno como números com- 
plexos, tomando a DFT desses números e mantendo 
apenas alguns componentes da DFT como descritores 
da fronteira da forma. A DFT inversa é, então, uma 
aproximação do contorno original. Qual classe de 
contornos teria uma DFT composta de números reais 
e como deveria ser configurado o sistema de eixo na 
Figura 11.19 para obter esses números reais? 


11.13 Comprove que, se você usar apenas dois descrito- 
res de Fourier (u = 0 e u = 1) para reconstruir uma 
fronteira com a Equação 11.2-5, o resultado será 
sempre um círculo. (Dica: use a representação paramé- 
trica de um círculo no plano complexo e expresse a 
equação de um círculo em coordenadas polares.) 


*11.14 Forneça o menor número de descritores de momen- 
tos necessários para diferenciar entre as assinaturas 
das figuras apresentados na Figura 11.10. 


11.15 Dê dois formatos de fronteira que tenham a mesma 
média e os mesmos terceiros descritores de momen- 
to estatístico, mas diferentes segundos momentos. 


*11.16 Proponha um conjunto de descritores capaz de di- 
ferenciar entre os formatos dos caracteres 0, 1, 8, 9 
e X. (Dica: use descritores topológicos em conjunto 
com o fecho convexo.) 


11.17 Considere uma imagem binária de tamanho 200 x 200 
pixels, com uma faixa preta vertical que se estenda 
desde as colunas 1 até 99 e uma faixa branca vertical 
que se estenda desde a coluna 100 até a 200. 


(a) Obtenha a matriz de co-ocorrência desta ima- 
gem usando o operador de posição “um pixel 
para a direita”. 

*(b) Normalize esta matriz de modo que seus ele- 


mentos se tornem estimativas de probabilidade, 
conforme explicado na Seção 11.3.1. 


11.18 


11.19 


11.20 
*11.21 


11.22 


*11.23 


11.24 


*11.25 


11.26 


(c) Use a sua matriz de (b) para calcular os seis des- 
critores na Tabela 11.3. 


Considere uma imagem do tipo tabuleiro de xa- 
drez composta por quadrados alternados em preto 
e branco, cada um com tamanho m x m. Forneça o 
operador de posição que produza uma matriz de co- 
-ocorrência diagonal. 


Obtenha a matriz de co-ocorrência em níveis de cin- 
za de uma imagem 5 x 5 de um tabuleiro de xadrez 
que alterna entre Is e Os se 


*(a) a posição do operador Q é definida como “um 
pixel à direita”, e 
(b) a posição do operador Q é definida como “dois 
pixels à direita”. 
Suponha que o pixel superior esquerdo tem valor 0. 
Prove a validade das equações 11.4-7,11.4-8€ 11.4-9, 


Foi mencionado no Exemplo 11.13 que um trabalho 
respeitável poderia ser feito reconstruindo aproxi- 
mações para as seis imagens originais usando apenas 
as duas imagens de componente principal associadas 
com os maiores autovalores. Qual seria o erro médio 
quadrático ao fazer isso? Expresse sua resposta como 
uma porcentagem do erro máximo possível. 


Para um conjunto de imagens de tamanho 64 x 64, 
suponha que a matriz de covariância dada na Equa- 
ção 11.4-9 acabe sendo a matriz identidade. Qual 
seria o erro médio quadrático entre as imagens ori- 
ginais e as reconstruídas usando a Equação 11.4-11 
com apenas metade dos autovetores originais? 


Em quais condições você esperaria que os eixos prin- 
cipais de uma fronteira, definidos na Seção 11.2.1, 
fossem iguais aos autoeixos dessa mesma fronteira? 


Ofereça uma relação espacial e uma representação 
de árvore correspondente para padrão de xadrez de 
quadrados pretos e brancos. Suponha que o elemen- 
to superior esquerdo seja preto e que a raiz da árvore 
corresponda a esse elemento. Sua árvore não pode 
ter mais do que dois galhos saindo de cada nó. 


Você foi contratado para projetar um sistema de pro- 
cessamento de imagem para detectar imperfeições 
no interior de algumas barras de plástico sólido. As 
barras são analisadas usando um sistema de imagens 
de raios X, que produz imagens de 8 bits de tamanho 
512 x 512. Na ausência de imperfeições, as imagens 
parecem “brandas”, tendo uma intensidade média 
de 100 e variância de 400. As imperfeições apare- 
cem como regiões cheias de bolhas em que cerca 
de 70% dos pixels têm excursões na intensidade de 
50 níveis de intensidade igual ou menor sobre uma 
média de 100. A barra é considerada defeituosa se 
essa região ocupa uma área superior a 20 x 20 pi- 
xels de tamanho. Proponha um sistema baseado em 
análise de textura. 


Uma empresa que engarrafa uma variedade de pro- 
dutos químicos industriais já ouviu falar do seu su- 
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cesso resolvendo os problemas de imagem e o convi- 
da para criar uma metodologia para detectar quando 
as garrafas estão vazias. As garrafas aparecem como 
na figura abaixo conforme se movem ao longo de 
uma linha transportadora depois de uma estação 
automática de preenchimento e vedação. Uma gar- 
rafa é considerada defeituosamente cheia quando o 
nível do líquido estiver abaixo do ponto médio entre 
a parte inferior do gargalo e o ombro da garrafa. O 
ombro é definido como a região da garrafa na qual 
os lados e a parte mais fina da garrafa se juntam. 
As garrafas estão se movendo, mas a empresa tem 
um sistema de imagem equipado com uma ilumi- 
nação de flash dianteiro que para o movimento; as- 
sim, você terá imagens que se assemelham muito ao 
exemplo mostrado aqui. Com base no material que 
você estudou até o momento, proponha uma solu- 
ção para a detecção de garrafas cujo volume do liqui- 
do não está correto. Estabeleça claramente todas as 
suposições que você fizer e que provavelmente terão 
um impacto na solução proposta. 


Depois de ouvir falar sobre o seu sucesso com o pro- 
blema de engarrafamento, você é contatado por uma 
empresa de fluidos que pretende automatizar a con- 
tagem de bolhas em determinados processos visan- 
do ao controle de qualidade. A empresa resolveu o 
problema de imagem e pode obter imagens de 8 bits 
com 700 x 700 pixels, como a apresentada. Cada 
imagem representa uma área de 7 cm?. A empresa 
pretende fazer duas coisas com cada imagem: (1) de- 
terminar a relação entre a área ocupada pelas bolhas 
e a área total da imagem; e (2) contar o número de 
bolhas distintas. Com base no material que você es- 
tudou até o momento, proponha uma solução para 
este problema. Em sua solução, certifique-se de in- 
dicar as dimensões físicas da menor bolha que sua 
solução pode detectar. Estabeleça claramente todas 
as suposições que você fizer e que provavelmente 
terão um impacto na solução proposta. 
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Capítulo 


Reconhecimento 


de objetos 


Um dos aspectos mais interessantes do mundo é que ele pode ser considerado 


como se fosse feito de padrões. 


Um padrão é essencialmente um arranjo. Ele é caracterizado pela ordem dos 
elementos que o compõem, e não pela natureza intrínseca desses elementos. 


Norbert Wiener 


Apresentação 


Concluiremos nossa discussão sobre processamento digital de imagens com uma introdução às técnicas de 
reconhecimento de objetos. Como visto na Seção 1.1, definimos o escopo de abrangência do processamento 
digital de imagens para incluir o reconhecimento de regiões individuais de imagem, que neste capítulo serão 
chamadas de objetos ou padrões. 


As metodologias de reconhecimento de padrões desenvolvidas aqui dividem-se em duas áreas principais: 
decisões teórica e estrutural. A primeira categoria tem a ver com padrões descritos utilizando descritores 
quantitativos, como comprimento, área e textura. A segunda categoria aborda os padrões cuja descrição 
é melhor se for feita por meio de descritores qualitativos, como os descritores relacionais discutidos na 
Seção 11.5. 


Um conceito muito importante quando se fala de reconhecimento diz respeito à “aprendizagem” a partir dos 
padrões de amostra. As técnicas de aprendizagem tanto para a abordagem de decisão teórica quanto para a 


abordagem estrutural serão desenvolvidas e ilustradas nos parágrafos a seguir. 


12.1 Padrões e classes de padrões 


Um padrão é um arranjo de descritores, como os dis- 
cutidos no Capítulo 11. O termo característica é usado 
frequentemente na literatura de reconhecimento de pa- 
drões para denotar um descritor. Uma classe de padrões é 
uma família de padrões que compartilham algumas pro- 
priedades comuns. As classes de padrões são indicadas 
como w,, w.,... wW, onde W é o numero de classes. O reco- 
nhecimento de padrões por máquina envolve técnicas de 
atribuição de padrões às suas respectivas classes de forma 
automática e com a menor intervenção humana possível. 

Três arranjos de padrões comumente utilizados na 
prática são os vetores (para descrições quantitativas), as 
strings e as árvores (para as descrições estruturais). Os ve- 


tores de características (feature vector ou pattern vector) são 
representados por letras minúsculas em negrito, como x, 
y, e z, e assumem a forma 


x=| (12.1-1) 


na qual cada componente, x, representa o i-ésimo descritor, 
en é o número total desses descritores que estão associados 
ao padrão. Os vetores de características são representados 
na forma de colunas (ou seja, n x 1 matrizes). Assim, um 
vetor de características pode ser expresso sob a forma apre- 
sentada na Equação 12.1-1 ou em sua forma equivalente 


= E o E A 
x = (x, X,.. x), na qual T indica a transposição. Você 


n 


deve reconhecer essa notação da Seção 11.4.” 


A natureza dos componentes de um vetor de carac- 
terísticas x depende da metodologia utilizada para des- 
crever o padrão físico propriamente dito. Vamos ilustrar 
com um simples exemplo que dá uma noção da história 
na área de classificação de medidas. Em uma dissertação 
clássica, Fisher (1936) relatou o uso do que, para aquele 
momento, era uma nova técnica denominada análise dis- 
criminante (discutida na Seção 12.2) para reconhecer três 
tipos de flores íris (Íris setosa, virgínica e versicolor) medin- 
do a largura e o comprimento das pétalas (Figura 12.1). 


Em nossa terminologia atual, cada flor é descrita por 
duas medidas, o que leva a um vetor de características 
2-D na forma 


nel (12.1-2) 


sendo x, e x, o comprimento e a largura da pétala, respecti- 
vamente. As três classes de padrões para este caso, cha- 
madas w,, w, e w, correspondem às variedades setosa, 
virgínica e versicolor, respectivamente. 


Em virtude de as pétalas de flores variarem em lar- 
gura e comprimento, os vetores de características que des- 
crevem essas flores também irão variar, não apenas entre 
as diferentes classes, mas também dentro de cada classe. A 
Figura 12.1 mostra as medidas de comprimento e de lar- 
gura para várias amostras de cada tipo de flor de íris. Após 
selecionar um conjunto de medidas (duas, neste caso), 
um vetor de características torna-se a completa repre- 
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Figura 12.1 Três tipos de flores íris descritas por duas medidas. 


Consulte o site do livro para uma breve revisão sobre vetores 
e matrizes. 


Reconhecimento de objetos 569 


sentação de cada amostra física. Portanto, cada flor neste 
caso torna-se um ponto em um espaço euclidiano 2-D. 
Verificamos também que as medidas da largura e compri- 
mento da pétala separaram a classe de Íris setosa das outras 
duas, mas não separaram com sucesso o tipo virgínica do 
tipo versicolor. Este resultado ilustra o clássico problema 
de seleção de características, no qual o grau de separabilidade 
entre as classes depende em boa parte da escolha dos des- 
critores selecionados para uma aplicação. Falaremos muito 
mais sobre este assunto nas seções 12.2 e 12.3. 


A Figura 12.2 mostra outro exemplo de geração de 
vetor de características. Aqui, estamos interessados em di- 
ferentes tipos de formatos ruidosos, como mostrado na Fi- 
gura 12.2(a). Se decidirmos representar cada objeto pela sua 
assinatura (ver Seção 11.1.5), obteremos sinais unidimen- 
sionais do tipo que aparece na Figura 12.2(b). Suponha que 
decidamos descrever cada assinatura simplesmente usan- 
do a amplitude dos valores amostrados, ou seja, tomamos 
amostras da assinatura em determinados intervalos de 6, 
denotados por @,, 6,,..., 0. Então, poderemos formar vetores 
de características fazendo x, = r(0,), x, = r(0,),... x, = (0). 
Esses vetores tornam-se pontos no espaço n-dimensional 
euclidiano e as classes de padrões podem ser entendidas 
como “nuvens” de n dimensões. 


Em vez da utilização direta das amplitudes da assina- 
tura, poderíamos calcular, por exemplo, os n primeiros mo- 
mentos estatísticos de uma determinada assinatura (Seção 
11.2.4) e usar esses descritores como componentes de cada 
vetor de características. De fato, deve estar evidente que os 
vetores de características podem ser gerados de muitas for- 
mas. Apresentaremos algumas delas ao longo deste capítu- 
lo. Por ora, o conceito-chave a ser lembrado é que a seleção 
dos descritores nos quais vai se basear cada componente 
de um vetor de características tem uma influência impor- 
tante sobre o desempenho final do reconhecimento de 
objetos baseado na abordagem de vetor de características. 

As técnicas que acabamos de descrever para gerar 


vetores de características produzem classes de padrões 
marcadas por informações quantitativas. Em algumas 
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Figura 12.2 Um objeto ruidoso e sua assinatura correspondente. 
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aplicações, as características dos padrões são mais bem 
descritas por relações estruturais. Por exemplo, o reco- 
nhecimento de impressões digitais baseia-se nas relações 
entre características das impressões chamadas minutiae. 
Com o tamanho e a localização relativa, essas caracte- 
rísticas são componentes primitivos que descrevem pro- 
priedades dos sulcos das impressões digitais, como ter- 
minações abruptas, ramificações, fusões e segmentos 
desconectados. Os problemas de reconhecimento desse 
tipo, em que não só as medidas quantitativas de cada ca- 
racterística, mas também as relações espaciais entre elas 
determinam as classes, geralmente são mais bem resolvi- 
dos usando abordagens estruturais. Este assunto foi in- 
troduzido na Seção 11.5. Abordaremos este tema breve- 
mente no contexto dos descritores de padrões. 


A Figura 12.3(a) mostra um padrão simples em 
forma de escada. Esse padrão pode ser amostrado e ex- 
pressado em termos de um vetor de características, se- 
melhante à abordagem utilizada na Figura 12.2. No en- 
tanto, a estrutura básica composta das repetições de dois 
elementos primitivos simples seria perdida neste método 
de descrição. Uma descrição mais significativa seria feita 
por meio da definição dos elementos a e b e deixando que 
o padrão fosse um string de símbolos w = ...abababab..., 
como apresentado na Figura 12.3(b). A estrutura dessa 
classe particular de padrões é capturada nessa represen- 
tação requerendo-se que a conectividade seja definida 
como tipo cabeca-a-cauda, além de permitir apenas sim- 
bolos alternantes. Essa construção estrutural é aplicável a 
escadas de qualquer tamanho, mas exclui outros tipos de 
estruturas que poderiam ser geradas por outras combina- 
ções das primitivas a e b. 


Representações por strings geram adequadamente 
padrões de objetos e outras entidades cujas estruturas 
baseiam-se em conectividade relativamente simples de 
primitivas, geralmente associadas à fronteira da forma. 
Uma abordagem mais poderosa para muitas aplicações 
é o uso de descrições por árvores, tal como definido na 


Lo p 


Figura 12.3 (a) Estrutura em forma de escada. (b) Estrutura codifica- 
da em termos das primitivas a e b, de modo a levar a uma representa- 
ção por um string ...ababab... 


Seção 11.5. Basicamente, a maioria dos esquemas de or- 
ganização hierárquica produz estruturas do tipo árvore. 
Por exemplo, a Figura 12.4 é uma imagem do satélite do 
centro de uma cidade com muitas construções e zonas re- 
sidenciais ao redor desse eixo central. Vamos definir toda 
a área da imagem com o símbolo $. A representação por 
árvore (de cabeça para baixo) mostrada na Figura 12.5 
foi obtida utilizando a relação estrutural “composto de”. 
Portanto, a raiz da árvore representa a imagem inteira. 
O próximo nível indica que a imagem é composta por 
um centro e uma zona residencial. Esta, por sua vez, é 
composta por moradias, rodovias e shoppings. O nível 
seguinte descreve ainda mais as moradias e as rodovias. 
Podemos continuar esse tipo de subdivisão até atingir o 
limite de nossa capacidade para definir as diferentes re- 
giões da imagem. 

Nas seções seguintes, desenvolveremos as metodo- 
logias de reconhecimento de objetos descritas nas técni- 
cas tratadas nos parágrafos anteriores. 


12.2 Reconhecimento com base no 
método de decisão teórica 


As abordagens da decisão teórica ao reconhecimen- 

to estão baseadas na utilização de uma função de decisão 
A a a ; o i 

(ou função discriminante). Digamos que x = (X,, X,..., X,) 
representa um vetor de características n-dimensional, 
como já foi discutido ma Seção 12.1. Para W classes de 


Figura 12.4 
grande número de construções (Washington, D.C.) e as zonas residen- 
ciais em volta. (Imagem original: cortesia da Nasa.) 


Imagem de satélite do centro de uma cidade com seu 
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densidade estruturas faixas intersecções Baixa Pequenas Areas Faixa _ Poucas 
densidade estruturas arborizadas simples intersecções 


Figura 12.5 Uma descrição tipo árvore da imagem na Figura 12.4. 


padrão w, w,,..., w, O problema básico em reconheci- 
mento de padrões por decisão teórica é encontrar W fun- 
ções de decisão d (x), d,(X),..., d (x) com a proprieda- 
de que, se o padrão x pertence à classe w, então 


d(x) >d(x) j=1,2,..,W:j#i (12.2-1) 


Em outras palavras, um padrão desconhecido x perten- 
ce à i-ésima classe de padrões se a substituição de x em 
todas as funções de decisão fizer com que d (x) tenha o 
maior valor numérico. Empates são resolvidos arbitra- 
riamente. 


A fronteira de decisão que separa as classes w,e w é 
dada pelos valores de x para os quais d(x) = d(x) ou, de 
J 
forma equivalente, pelos valores de x para os quais 


(1290) 


A prática comum consiste em identificar a fronteira de 
decisão entre duas classes pela função d (x) = d(x) — 
d(x) = 0. Portanto, d,(x) > 0 para os padrões de classe 
w, e d (x) < 0 para os padrões de classe w,. O objetivo 
principal da discussão nesta seção é desenvolver várias 
abordagens para encontrar funções de decisão que satis- 
façam a Equação 12.2-1. 


12.2.1 Casamento (matching) 


As técnicas de reconhecimento baseadas no casa- 
mento representam cada classe usando um vetor de ca- 
racterísticas protótipo. Um padrão desconhecido é atri- 
buído à classe mais próxima em termos de uma métrica 
predefinida. A abordagem mais simples é o classificador 
de distância mínima, que, como seu nome indica, calcula 
a distância (euclidiana) entre o padrão desconhecido e 
cada um dos vetores protótipos. O método escolhe a me- 
nor distância para tomar uma decisão. Discutimos, tam- 
bém, uma abordagem baseada na correlação que pode 
ser formulada diretamente em termos de imagens e que 
é bastante intuitiva. 


O classificador de distância mínima 


Suponha que definamos que o protótipo de cada clas- 
se de padrões seja o vetor médio dos padrões dessa classe: 


l : 
m=— Lx, j=12,...,W 


j x&w; 


(12.2-3) 


na qual N é o numero de vetores de características da clas- 
se w, e a soma é realizada sobre esses vetores. Tal como 
antes, W é o número de classes de padrões. Uma maneira 
de determinar a pertinência de um vetor de característi- 
cas x desconhecido é associá-lo à classe de seu protótipo 
mais próximo, como explicamos anteriormente. Usar a 
distância euclidiana para determinar a proximidade re- 
duz o problema para o cálculo das medidas de distância: 


D(x) =lx-mil j=1, 2, W (12.24) 


onde llall = (a” a)!” é a norma euclidiana. Atribuímos, 
então, x à classe w, se D, (x) for a menor distância. Ou 
seja, a menor distância representa o melhor casamento 
nesta formulação. Não é difícil mostrar (Exercício 12.2) 
que selecionar a menor distância é equivalente à avalia- 
ção das funções 

(12.2-5) 


1 . 
d(x)=xm,— jm, =, 


e a atribuir x à classe w se d(x) produzir o maior valor 
numérico. Esta formulação está de acordo com o conceito 
de função de decisão, como definido na Equação 12.2-1. 

A partir das equações 12.2-2 e 12.2-5, pode-se ver 
que a fronteira de decisão entre as classes w, e w, para um 
classificador de distância mínima é 


d(x) = d,(x)— d (x) 


ij i 


(12.2-6) 


A superfície dada pela Equação 12.2-6 é a bisseção 
perpendicular do segmento de reta entre m, e m, (veja 
Exercício 12.3). Para n = 2, a bisseção perpendicular é 
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uma linha, para n = 3 é um plano, e para n > 3 é cha- 
mada de hiperplano. 


= 
Exemplo 12.1 Ilustração do classificador de distância 
mínima. 

A Figura 12.6 mostra duas classes de padrões extraídas 
das amostras de íris apresentadas Figura 12.1. As duas clas- 
ses, tanto a Íris versicolor quanto a Íris setosa, denotadas w € 
w,, respectivamente, possuem vetores médios de amostra 
m = (4,3, 1,3)7e m,= (L5, 0,3)”. A partir da Equação 12.2-5, 
as funções de decisão sao 


l 
d (x)= x'm, — 5mm, 


= 4,3x, +1,3x, —10,1 


l 
d,(x) = x"m, — 5mm, 
=1,5x,+0,3x, —1,17 
da Equação 12.2-6, a equação da fronteira é 


d (x)= d,(x)—d,(x) 
= 2,8x, +1,0x, —8,9=0 


A Figura 12.6 mostra um gráfico desse limite (repare 
que os eixos não estão na mesma escala). A substituição 
de qualquer vetor de características da classe w, resultaria 
em d,, (x) > 0. Por outro lado, qualquer padrão de clas- 
se w, resultaria em d,,(x) < 0. Em outras palavras, dado 
um padrão desconhecido que pertença a uma dessas duas 
classes, o sinal de d,,(x) será suficiente para determinar a 
classe à qual o padrão pertence. 

= 
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o Iris setosa 
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Figura 12.6 Fronteira de decisão do classificador de distância mini- 
ma para as classes de /ris versicolor e Iris setosa. O ponto e o quadra- 
do escuros são as médias. 


Na prática, o classificador de distância mínima fun- 
ciona bem quando a distância entre as médias é grande 
em comparação com a dispersão ou a aleatoriedade de cada 
classe em relação a sua média. Na Seção 12.2.2, mostra- 
remos que o classificador de distância mínima produz um 
desempenho ótimo (em termos de minimizar o erro mé- 
dio de classificação) quando a distribuição de cada classe 
em torno de sua média encontra-se na forma de uma “hi- 
pernuvem” esférica no espaço n-dimensional de padrões. 


A ocorrência simultânea de grandes separações entre 
as médias com relativamente pouca dispersão nas clas- 
ses raramente ocorre na prática, a menos que o projetista 
do sistema controle a natureza da entrada de dados. Um 
excelente exemplo é fornecido pelos sistemas designa- 
dos para ler as fontes de caracteres estilizados, como o 
já reconhecido conjunto de caracteres de fonte E-13B da 
American Banker's Association. Como aparece na Figura 
12.7, este conjunto particular de fontes é composto por 
14 caracteres que foram concebidos propositadamente 
sobre uma grade de 9 x 7 a fim de facilitar a leitura. Os 
caracteres geralmente são impressos com um tipo de tinta 
que contém finos grãos de material magnético. Antes de 
os caracteres serem lidos, a tinta é submetida a um campo 
magnético que enfatiza cada um deles para facilitar a de- 
tecção. Em outras palavras, o problema da segmentação é 
resolvido enfatizando-se, artificialmente, cada caractere. 


Os caracteres são tipicamente digitalizados na dire- 
ção horizontal por um cabeçote de leitura do tipo fenda 
(single-slit), que é mais estreito e mais alto que os carac- 
teres propriamente. Conforme o cabeçote de leitura pas- 
sa sobre o caractere, produz um sinal elétrico unidimen- 
sional (uma assinatura) condicionado a ser proporcional 
à razão de aumento ou diminuição da área do caractere 
sob o cabeçote. Por exemplo, considere a forma de onda 
associada ao número 0 na Figura 12.7. Conforme o ca- 
becote de leitura faz o movimento da esquerda para a 
direita, a área lida pelo cabeçote começa a aumentar, 
produzindo uma derivada positiva (uma razão positiva 
de mudança). Conforme o cabeçote começa a deixar o 
extremo esquerdo do 0, a área sob o cabeçote come- 
ça a diminuir gerando uma derivada negativa. Quando 
a cabeça está no meio do caractere, a área permanece 
praticamente constante, produzindo uma derivada zero. 
Esse padrão repete-se conforme o cabeçote atravessa 
a extremidade direita do caractere. O projeto da fon- 
te garante que o sinal de cada caractere seja diferente 
de todos os outros. Garante também que os valores de 
pico e os zeros de cada sinal ocorram aproximadamente 
nas linhas verticais da grade de fundo sobre a qual os 
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Figura 12.7 Conjunto de fontes de caracteres “American Banker's 
E-13B” e as formas de onda correspondentes. 


caracteres são exibidos, como mostra a Figura 12.7. A 
fonte E-13B possui a propriedade de que a amostragem 
dos sinais apenas naqueles pontos carrega informação 
suficiente para sua correta classificação. A utilização da 
tinta magnetizada ajuda no fornecimento de sinais lim- 
pos, minimizando o espalhamento. 


Projetar um classificador de distância mínima para 
essa aplicação é imediato. Simplesmente armazenamos 
os valores amostrados de cada sinal e fazemos com que 
cada conjunto de amostras seja representado como um 
vetor prototípico m, j=1,2,..., 14. Quando um ca- 
ractere desconhecido estiver para ser classificado, deve-se 
varrê-lo da maneira descrita previamente, expressar as 
amostras de grade do sinal como um vetor, x, e identifi- 
car sua classe selecionando o protótipo que leve ao valor 
da Equação 12.2-5. Podem se alcançar velocidades altas de 
classificação usando circuitos analógicos compostos por 
bancos de resistores (ver Exercício 12.4). 


Casamento por correlação 


Introduzimos a ideja básica da correlação espacial 
na Seção 3.4.2 e a utilizamos extensivamente para a fil- 
tragem espacial nessa mesma seção. Também menciona- 
mos brevemente o teorema de correlação na Seção 4.6.7 
e na Tabela 4.3. Da Equação 3.4-1, sabemos que a cor- 
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relação de uma máscara w(x, y) de tamanho m x n, com 
uma imagem f(x, y) pode ser expressa na forma 


edx, y)= dod w(s,t)f(xt+s,y+t)  (12.2-7a) 


na qual os limites do somatório são tomados da região 
compartilhada por w e f. Essa equação é avaliada para 
todos os valores das variáveis de deslocamento x e y, de 
modo que todos os elementos de w possam percorrer cada 
pixel de f sendo fmaior que w. Assim como a convolução 
espacial está relacionada à transformada de Fourier de 
funções por meio do teorema da convolução, a correlação 
espacial está relacionada à transformada das funções por 
meio do teorema de correlação:” 


fixy w(x y) e (u, v)W(u v) (12.2-7b) 


na qual * indica a convolução espacial, e F* é o complexo 
conjugado de F. A outra metade do teorema de correlação 
estabelecido na Tabela 4.3 não apresenta nenhum interes- 
se nesta discussão. A Equação 12.2-7(b) consiste em duas 
transformadas de Fourier cuja interpretação é idêntica à dis- 
cussão da Equação 4.6-24, exceto pelo fato de que usamos o 
complexo conjugado de uma das funções. A transformada 
inversa de Fourier da Equação 12.2-7(b) produz uma cor- 
relação bidimensional circular análoga à Equação 4.6-23, e 
as questões de preenchimento discutidas na Seção 4.6.6 a 
respeito da convolução também são aplicáveis à correlação. 


Não vamos nos debruçar sobre nenhuma das equa- 
ções anteriores, pois ambas são sensíveis às mudanças na 
escala de fe w. Em vez disso, utilizaremos o coeficiente nor- 
malizado de correlação descrito a seguir” 


Ly [w(st)-G LI flats y+- 


s t 


Wx, y)= 


~ 

= 

x Pl 

Sy 
f 
notes 


(EEluso-alzefra+s 
(12.2-8) 


sendo que os limites do somatório são tomados da região 
compartilhada por w e fé o valor médio da mascara (calcu- 
lado apenas uma vez), e fy é o valor médio de fna região 
que coincide com w. Muitas vezes, w é chamado de template 
e a correlação é chamada de casamento do template. Podemos 
observar que (Exercício 12.7) y(x, y) tem valores no inter- 
valo [-1, 1] e é, portanto, normalizado para as alterações 
nas amplitudes de w e f. O valor máximo de (x, y) ocorre 


Para sermos formais, devemos nos referir à correlação como cor- 
relação cruzada quando as funções são diferentes, e autocorrelação 
quando são iguais. No entanto, é habitual utilizarmos o termo 
genérico correlação quando se sabe que duas funções em uma de- 
terminada aplicação são iguais ou diferentes. 

“ Pode ser útil rever a Seção 3.4.2 a respeito do funcionamento da 
correlação espacial. 
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quando o w normalizado e a região normalizada correspon- 
dente em f são idênticos. Isso indica uma correlação máxima 
(ou seja, o melhor casamento possível). O mínimo ocorre 
com as duas funções normalizadas que exibem a menor si- 
milaridade no sentido da Equação 12.2-8. O coeficiente de 
correlação não pode ser calculado usando a transformada 
de Fourier em virtude dos termos não lineares da equação 
(divisão e quadrados). 

A Figura 12.8 ilustra os mecanismos do procedi- 
mento que acabamos de descrever. A fronteira em torno 
de fé o preenchimento necessário para a situação em que 
o centro de w está na fronteira de f, como foi explicado 
na Seção 3.4.2. (No casamento de templates, os valores de 
correlação quando o centro do template ultrapassa a fron- 
teira da imagem geralmente não são de interesse, e o pre- 
enchimento fica restrito à metade da largura da máscara.) 
Como de costume, vamos limitar a atenção aos templates 
de tamanho ímpar visando à conveniência notacional. 


A Figura 12.8 mostra um template de tamanho m x n 
cujo centro está em uma posição arbitrária (x, y). A corre- 
lação neste momento é obtida com a aplicação da Equa- 
ção 12.2-8. Em seguida, o centro do template é incremen- 
tado em um local adjacente, e o procedimento é repetido. 
O coeficiente de correlação completa y(x, y) é obtido deslo- 
cando o centro do template (isto é, incrementando x e y), de 
modo que o centro de w passe por cada pixel de f. Ao final 
do procedimento, procuramos o máximo em (x, y) para 
descobrir onde ocorreu o melhor casamento. É possível 
ter várias posições em y(x, y) com o mesmo valor máxi- 
mo, indicando vários casamentos entre w e f. 


= 
Exemplo 12.2 Casamento por correlação. 


A Figura 12.9(a) mostra uma imagem de satélite com 
913 x 913 pixels do furacão Andrew, na qual o olho da 
tempestade é claramente visível. Como exemplo da corre- 
lação, vamos encontrar a localização do melhor casamento 


i 
(m — 1)/2 
} 


(n= 1)/2 +} |= 


S Origem 
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Preenchimento 


L 


Figura 12.8 


O funcionamento do casamento de templates. 


Figura 12.9 


(a) Imagem de satélite do furacão Andrew, obtida em 
24 de agosto de 1992. (b) Template do olho do furacão. (c) Coeficiente 
de correlação mostrado apresentado na forma de uma imagem (note 
o ponto mais brilhante). (d) Localização do melhor casamento. Este 
ponto é um único pixel, mas seu tamanho foi ampliado para que fosse 
mais fácil visualizá-lo. (Imagem original: cortesia da Noaa) 


em (a) do template da Figura 12.9(b), que é uma pequena su- 
bimagem do olho da tempestade (31 x 31). A Figura 12.9(c) 
mostra o resultado do cálculo do coeficiente de correlação 
na Equação 12.2-8. O tamanho original da imagem era de 
943 x 943 pixels em virtude do preenchimento (ver Figura 
12.8), mas nós a recortamos e a deixamos do tamanho da 
imagem original para uma melhor visualização. A intensi- 
dade nessa imagem é proporcional ao valor da correlação, e 
todas as correlações negativas foram deixadas em O (preto) 
para simplificar a análise. O ponto mais brilhante da ima- 
gem de correlação aparece de forma clara perto do olho do 
furacão. A Figura 12.9(d) mostra como um ponto branco 
a localização da correlação máxima (nesse caso, houve um 
casamento único, cujo valor máximo era à 1), o que corres- 
ponde aproximadamente à localização do olho do furacão 
apresentada na Figura 12.9(a). 

= 


A discussão anterior mostra que é possível norma- 
lizar a correlação para as alterações nos valores de in- 
tensidade das funções a serem processadas. A normali- 
zação para o tamanho e a rotação é um problema mais 
complicado. A normalização para o tamanho implica um 
ajuste de escala que, conforme explicado nas seções 2.6.5 
e 4.5.4, é o mesmo que fazer uma reamostragem da ima- 
gem. Para que a reamostragem faça sentido, o tamanho 
ao qual uma imagem deve ser redimensionada tem que 
ser conhecido. Em algumas situações, isso pode ser muito 
difícil, a menos que existam referências espaciais dispo- 


níveis. Por exemplo, em uma aplicação de sensoriamento 
remoto, se a geometria de visualização dos sensores de 
imagem for conhecida (o que normalmente é o caso), en- 
tão saber a altitude do sensor em relação à área a ser foto- 
grafada pode ser suficiente para normalizar o tamanho da 
imagem, assumindo um ângulo fixo de visão. 


A normalização por rotação exige também que o ân- 
gulo para o qual as imagens devem ser rotacionadas seja 
conhecido. Isso requer novamente a existência de referên- 
cias espaciais. No exemplo de sensoriamento remoto ante- 
rior, a direção do voo pode ser suficiente para rotacionar 
as imagens de sensoriamento em uma orientação padrão. 
Em algumas situações, normalizar o tamanho e a orienta- 
ção pode se tornar uma tarefa verdadeiramente desafiado- 
ra, que exige a detecção automática das características das 
imagens (como discutido no Capítulo 11), que podem ser 
utilizadas como pistas espaciais. 


12.2.2 Classificadores estatísticos ótimos 


Nesta seção, desenvolveremos uma abordagem pro- 
babilística para o reconhecimento. Como acontece na 
maioria das áreas que envolvem a medida e a interpre- 
tação de eventos físicos, considerações probabilísticas se 
tornam importantes no reconhecimento de padrões em 
virtude da aleatoriedade na qual as classes de padrões 
normalmente estão envolvidas. Conforme será mostrado 
na discussão a seguir, é possível derivar uma abordagem 
de classificação, que seja ótima no sentido de que, na média, 
seu uso leve à menor probabilidade de erros de classifica- 
ção (ver Exercício 12.10). 


Fundamentos 

A probabilidade de um determinado padrão x per- 
tencer a uma classe w, é denotada por p(w,/x). Se um 
classificador de padrões decidir que x pertence a w,quan- 
do, na verdade, ele pertence a w, ele terá cometido uma 
perda denotada por L, Uma vez que o padrão x pode 
pertencer a uma das classes W em consideração, a perda 
média incorrida na atribuição de x à classe w, é 


1 (x) = È Ly, Ix) (12.2-9) 


Essa equação é frequentemente chamada de risco médio 
condicional ou perda na terminologia da teoria da decisão. 


A partir da teoria básica de probabilidades," sabemos 
que p(A/B)=[p(A)p(B/A)]/p(B). Usando essa expressão, 
escrevemos a Equação 12.2-9, na forma 


1 wW 
r(x) =D L,p(x!w,)P(w,) (12.2-10) 
p(X) k= 
* Consulte o site do livro para uma breve revisão sobre a teoria da 
probabilidade. 
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em que p(x/w,) é a função densidade de probabilidade 
dos padrões da classe w, e P(w,) é a probabilidade de 
ocorrência da classe w, (por vezes, essas probabilidades 
são chamadas de probabilidades a priori, ou probabilidades 
prévias). Uma vez que 1/p(x) é positivo e comum a todos 
os r(x), j= 1, 2,..., W, ele pode ser eliminado da Equa- 
ção 12.2-10, sem afetar a ordem relativa dessas funções 
do menor ao maior valor. A expressão para a perda média 
se reduz então a 


1 (x)= ¥ LyplX! w) Pla) 


k=l 


(12.2-11) 


O classificador possui possíveis classes W para es- 
colher a partir de qualquer dado padrão desconhecido. 
Se ele calcular r (x), r,(x), ..., r (x) para cada padrão x 
e atribuir o padrão à classe com a menor perda, a perda 
média total com respeito a todas as decisões será mini- 
ma. O classificador que minimiza a perda média total é 
chamado de classificador bayesiano. Assim, o classificador 
bayesiano atribui um padrão desconhecido x à classe w, se 
r(x) < r(x) paraj=1,2,..., W; j= i. Em outras palavras, 
x é atribuído à classe w, se 


T LPI w,)P(w,) < E Lol! w, )Plw,) (12.2-12) 


para todo j, j = i. A “perda” para uma decisão correta ge- 
ralmente recebe o valor zero, e a perda de qualquer deci- 
são incorreta geralmente recebe o mesmo valor não nulo 
(digamos, 1). Sob essas condições, a função da perda fica 


L,=1-6, (12.2-13) 
onde 6, = 1 se i = j, e ô, = 0 se i = j. A Equação 12.2-13 in- 
dica uma perda de 1 unidade para as decisões incorretas e 
uma perda de zero para as decisões corretas. Substituindo 


a Equação 12.2-13 na Equação 12.2-11, temos 


Ww 
r(x) z lim ô )P(X/ w,)P(w,) 
= p(x) — p(x/ w,)P(w,) (12.2-14) 
O classificador bayesiano atribui, portanto, um padrao x 
a uma classe w se, para todo j = 1, 

p(X) — p(x/w,)P(w,) < p(x) — p(xfw)P(w,) (12.2-15) 

ou, equivalentemente, se 
p(x/w)P(w) > p(x/w,)P(w,) 
Ed Wt (12.2-16) 


Com referência à discussão que leva à Equação 12.2-1, 
vemos que o classificador bayesiano com funções de perda 
de 0-1 nada mais é do que o cálculo das funções de deci- 
são na forma 
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d(x) = p(x/w)P(w) j=1,2,..,W (12.2-17) 
na qual um vetor de características x é atribuído à classe 


cuja função de decisão produz o maior valor numérico. 


As funções de decisão dadas na Equação 12.2-17 
são ótimas no sentido de minimizarem o erro médico de 
classificação. No entanto, para essa otimização se man- 
ter, as funções densidade de probabilidade dos padrões 
de cada classe, bem como a probabilidade de ocorrência 
de cada classe, devem ser conhecidas. Esta última restri- 
ção normalmente não é um problema. Por exemplo, se 
todas as classes puderem ocorrer com a mesma probabi- 
lidade, então P(w) = 1/W. Mesmo que essa relação não 
seja verdadeira, essas probabilidades em geral podem ser 
inferidas a partir do conhecimento prévio do problema. A 
estimativa das funções de densidade probabilística p(x/w,) 
é outra questão. Se os vetores de características, x, são n- 
dimensionais, então plxio) é uma função de n variáveis, 
a qual, se sua forma não for conhecida, requer métodos 
da teoria da probabilidade multivariada para sua estima- 
tiva. Esses métodos são difíceis de serem aplicados na 
prática, especialmente se o número de padrões represen- 
tativos de cada classe não for grande, ou se a forma das 
funções densidade de probabilidade não forem bem com- 
portadas. Por essas razões, o uso do classificador bayesiano 
geralmente é baseado no pressuposto de uma expressão 
analítica para as várias funções densidade, seguidas da es- 
timativa dos parâmetros das expressões a partir de amostra 
de cada classe. De longe, a forma mais predominantemen- 
te assumida para p(x/w)) é a função densidade de probabi- 
lidade gaussiana. Quanto mais próxima da realidade for 
essa premissa, mais o classificador bayesiano se aproxima 
da perda média mínima de classificação. 


Classificador bayesiano para classes gaussianas 
de padrões 


Para começar, vamos considerar um problema 1-D 
(n = 1) envolvendo duas classes de padrões (W = 2) go- 
vernadas por densidades gaussianas, com médias m, e m, 
e os desvios padrão de o e o, respectivamente. Da Equa- 
ção 12.2-17, temos que as funções bayesianas de decisão 
possuem a forma 


ds) = plx w,)Plw;) 
=e 7 Piw) j=12 (12.2-18) 


na qual os padrões agora são escalares, denotados por x. 
A Figura 12.10 mostra o gráfico das funções de densidade 
de probabilidade para as duas classes. A fronteira entre as 
duas classes é um único ponto, chamado x, de forma que 
d,(x,) = 4,(x,). Se as duas classes têm a mesma probabili- 
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Figura 12.10 Funções densidade de probabilidade para duas clas- 
ses de padrões unidimensionais. O ponto x mostrado será a fronteira de 
decisão se as duas classes tiverem a mesma probabilidade de ocorrer. 


dade de ocorrer, então P(w,) = P(w,) = 1/2, e a fronteira 
de decisão é o valor de x, para os quais p(x,/w,) = p(x,/w,). 
Esse ponto é a interseção das duas funções densidade de 
probabilidade, como mostrado na Figura 12.10. Qualquer 
padrão (ponto) à direita de x, é classificado como perten- 
cente à classe w,. Da mesma forma, qualquer padrão à 
esquerda de x, é classificado como pertencente à classe 
w,. Quando as classes não tiverem a mesma probabilidade 
de ocorrer, x, se moverá para a esquerda se a classe w, 
tiver mais probabilidades de ocorrer ou, por outro lado, 
para a direita, se a classe w, tiver maior probabilidades 
de ocorrer. Esse resultado era esperado, uma vez que o 
classificador está tentando minimizar o erro de classifica- 
ção. Por exemplo, no caso extremo, se uma classe w, não 
ocorrer nunca, o classificador não deverá nunca cometer 
um erro atribuindo sempre os padrões à classe w, (ou seja, 
x, deveria se mover para o infinito negativo). 


No caso n-dimensional, a densidade gaussiana dos 
vetores na j-ésima classe de padrões tem a forma: 


l —1(x—m,)'C;'(x-m,) 


x /w,) = —_.——_-e 
pl ) (27)? IC, [2 


J 


(12.2-19) 


sendo que cada densidade é completamente especificada 
pelo seu vetor médio m, e a matriz de covariância C, que 
são definidos como 


m = £x] 


(12.2-20) 


C=Elix—m) (x —m)’} (12.2-21) 
sendo que E{-} denota o valor esperado do argumento 
sobre os padrões da classe w, Na Equação 12.2-19, né a 
dimensão dos vetores de características, e IC] é o determi- 
nante da matriz C. A aproximação do valor esperado E, 
pelo valor médio das quantidades em questão gera uma 
estimativa do vetor médio e da matriz de covariância: 

* Veja os comentários no final desta seção em relação ao fato de o 


classificador bayesiano para uma variável ser uma função ótima 
de estabelecimento do limiar, como mencionado na Seção 10.3.3. 


m,.=— px (12.2-22) 
l N, xew 
e 
l 
C= x -mm (12.2-23) 


sendo que N, é o número de vetores de características da 
classe w, e a soma é feita sobre esses vetores. Posterior- 
mente nesta seção, veremos um exemplo de como utili- 
zar essas duas expressões. 


A matriz de covariância é simétrica e semidefinida 
positiva. Conforme explicado na Seção 11.4, o elemento 
diagonal c, é a variância do k-ésimo elemento dos veto- 
res de características. O elemento Cy fora da diagonal, é 
a covariância entre x, e x,. A função densidade gaussia- 
na multivariada reduz o produto da densidade gaussiana 
univariada de cada elemento de x quando os elementos 
fora da diagonal da matriz de covariância forem zero. Isso 
acontece quando os elementos x, ex, do vetor não estão 
correlacionados.” 


De acordo com a Equação 12.2-17, a função de 
decisão bayesiana para a classe w, é d(x) = p(x/w)P(w,). 
No entanto, em virtude da forma exponencial da den- 
sidade gaussiana, é mais conveniente trabalhar com o 
logaritmo natural da função de decisão. Em outras pa- 


lavras, podemos utilizar a forma 
d,(x) = In[p(x/w,)P(w,)] 


J 


= In[p(x/w,)+In P(w,)] (12.2-24) 


Essa expressão é equivalente à Equação 12.2-17, em ter- 
mos de desempenho de classificação, uma vez que o lo- 
garitmo é uma função monotonicamente crescente. Em 
outras palavras, a ordem numérica das funções de decisão 
nas equações 12.2-17 e 12.2-24 é a mesma. Substituindo 
a Equação 12.2-19 na Equação 12.2-24, obtemos 


n l 
d(x) = In P(w,) su 27 | C,| 


s[(x—m,y'¢;(x—m, (12.2-25) 


O termo (n/2) In 27 é o mesmo para todas as classes, de 
modo que pode ser eliminado da Equação 12.2.25 que, 
então, fica 

1 
d.(x)=In Pw) In Ic,|- 


lx —m,)'C;'(x—m,)] (12.2-26) 


para j = 1, 2, ..., W. A Equação 12.2-26 representa as 
funções de decisão bayesianas para classes de padrão 
gaussiano sob a condição de função de perda 0-1. 


* Consulte o site do livro para uma breve revisão sobre vetores e matrizes. 
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As funções de decisão representadas na Equação 
12.2-26 são hiperquádricas (funções quadráticas no es- 
paço n-dimensional), uma vez que não existem termos 
de ordem maior que grau 2 para os componentes de x na 
equação. Fica claro, então, que o melhor que um classifi- 
cador bayesiano pode fazer para os padrões gaussianos é 
estabelecer uma superfície de decisão de segunda ordem 
entre cada par de classes de padrões. Se as populações de 
padrões forem realmente gaussianas, no entanto, nenhu- 
ma outra superfície levará a uma perda média menor na 
classificação. 


Se todas as matrizes de covariância são iguais, en- 
tão C;= C, para j = 1, 2,..., W. Expandindo a Equação 
12.2-26 e eliminando todos os termos independentes de 
j, obtemos 

d.(x)=In P(w,)+x'C'm, 


j j j 


1 
-3m0 m, (12.2-27) 


que são funções de decisão linear (hiperplanos) para j = 
RR W 

Se, além disso, C = I, sendo I a matriz identidade, e 
também P(w,) = 1/W, para j= 1, 2 ,„..., W, então, 


j=12,..,W  (12.2-28) 


d,(x) = x'm,— mim, 
Essas são as funções de decisão para um classificador de 
distância mínima, conforme indicado na Equação 12.2-5. 
Assim, o classificador de distância mínima é ótimo no sen- 
tido bayesiano, se (1) as classes de padrões forem gaus- 
sianas, (2) todas as matrizes de covariância forem iguais à 
matriz identidade e (3) todas as classes tiverem a mesma 
probabilidade de ocorrer. As classes de padrões gaussia- 
nas que satisfazem essas condições são nuvens esféricas 
de forma idêntica em n dimensões (chamadas hiperes- 
feras). O classificador de distância mínima estabelece um 
hiperplano entre cada par de classes, com a propriedade 
de que esse hiperplano seja um bissetor perpendicular ao 
segmento de reta entre o centros do par de hiperesferas. 
Em duas dimensões, as classes constituem regiões circu- 
lares, e as fronteiras tornam-se linhas que bisseccionam 
o segmento de reta entre os centros de cada par desses 
círculos. 


= 
Exemplo 12.3 Um classificador bayesiano para padrões 
tridimensionais. 

A Figura 12.11 mostra um arranjo simples de duas 
classes de padrões em três dimensões. Usamos esses padrões 
para ilustrar o funcionamento da implementação de um 
classificador bayesiano, assumindo que os padrões de cada 
classe sejam amostras de uma distribuição gaussiana. 
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(0,0,1) 


(0,1,1) 


(0,1,0) 


Figura 12.11 Duas classes de padrão simples e sua fronteira de 
decisão bayesiana (sombreada). 


Aplicando a Equação 12.2-22 aos padrões da Figura 
12.11, temos 


1 
a m,= 


— = Ww 
Oo 
Ble 


l 
3 
3 
Da mesma forma, aplicar a Equação 12.2-23 nas duas classes 


de padrões produz, por sua vez, duas matrizes de covariân- 
cia, que neste caso são iguais: 


i 3 1 1 
= l 3 —] 
1-1 3 


Já que as matrizes de covariância são iguais, as funções 
de decisão bayesianas são dadas pela Equação 12.2-27. Se as- 
sumimos que P(w,) = P(w,) = 1/2, então a Equação 12.2-28 
se aplica, fornecendo 


E l z 
d,(x)=x'C m,-qmj£€ m, 


em que 
8 =4 =À 

C'=| -4 8 4 

-4 4 8 


Realizar a expansão da matriz de vetores para d(x) fornece 
as funções de decisão: 


d(x) =4x,-1,5 e d(x)= -4x + 8x, + 8x, —5,5 


A superfície de decisão que separa as duas classes é, então, 
d (x) — d,(x) = 8x, — 8x, — 8x, + 4=0 


A Figura 12.11 mostra uma seção dessa superfície, na qual 
se nota que as duas classes foram separadas de forma eficaz. 
E 


Uma das aplicações de maior sucesso da metodolo- 
gia de classificação bayesiana é a classificação de imagens 
de sensoriamento remoto geradas por scanners multies- 
pectrais a bordo de aviões, satélites ou estações espaciais. 
Os volumosos dados de imagem gerados por essas pla- 
taformas fazem da classificação e análise automática de 
imagens uma tarefa de grande interesse em sensoriamen- 
to remoto. As aplicações de sensoriamento remoto são va- 
riadas, incluindo o uso da terra, inventário de colheitas, 
detecção de doenças em safras, aspectos florestais, monito- 
ramento da qualidade da água e do ar, estudos geológicos, 
previsão do tempo e uma série de outras aplicações com 
importância ambiental. O exemplo a seguir mostra uma 
aplicação típica. 


a 
Exemplo 12.4 Classificação de dados multiespectrais 
utilizando um classificador bayesiano. 


Conforme discutido nas seções 1.3.4 e 11.4, um scan- 
ner multiespectral responde às bandas selecionadas do es- 
pectro de energia eletromagnética, por exemplo, 0,45 — 0,52, 
0,52 — 0,60, 0,63 — 0,69, e 0,76 — 0,90 microns. Esses intervalos 
encontram-se no azul visível, verde visível, vermelho visível 
e perto das bandas infravermelhas, respectivamente. Uma 
região no terreno assim digitalizado produz quatro imagens 
digitais da região, uma para cada banda. Se as imagens são 
registradas espacialmente, uma condição comum na prática, 
podem ser visualizadas como se estivessem alinhadas uma 
atrás da outra, como o mostra a Figura 12.12. Assim, tal 
como fizemos na Seção 11.4, todos os pontos no solo podem 
ser representados por um vetor de características de quatro 
elementos da forma x = (x', x’, x’, x)”, sendo que x, é um 
tom de azul, x, um tom de verde e assim por diante. Se as 
imagens forem de 512 x 512 pixels, cada bloco de quatro 
imagens multiespectrais pode ser representado por 266.144 
(512 x 512) vetores de características de quatro dimensões. 
Como observado anteriormente, o classificador bayesiano 
para os padrões gaussianos requer estimativas do vetor mé- 
dio e da matriz de covariância de cada classe. Em aplicações 
de sensoriamento remoto, essas estimativas são obtidas por 
meio do recolhimento de dados multiespectrais, cuja classe é 
conhecida em cada região de interesse. Os vetores resultantes 
são, então, utilizados para estimar os vetores médios neces- 
sários e as matrizes de covariância, como no Exemplo 12.3. 

As figuras 12.13(a) a (d) mostram quatro imagens 
multiespectrais (512 x 512) da área de Washington, D.C., 


x4 Banda espectral 3 


Banda espectral 2 


Banda espectral 1 


Figura 12.12 Formação de um vetor de características a partir de 
pixels registrados de quatro imagens digitais geradas por um scanner 
multiespectral. 
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obtidas nas bandas mencionadas no parágrafo anterior. Es- 
tamos interessados em classificar os pixels da região compre- 
endida pelas imagens em uma das três classes de padrões: 
água, desenvolvimento urbano ou vegetação. As máscaras 
da Figura 12.13(e) foram sobrepostas nas imagens para ex- 
trair amostras representativas das três classes. Metade das 
amostras foi usada para o treinamento (ou seja, para estimar 
os vetores médios e as matrizes de covariância), e a outra 
metade foi utilizada para testes independentes para avaliar o 
desempenho do classificador preliminar. As probabilidades a 
priori, P(w), raramente são conhecidas em uma classificação 
de dados multiespectrais irrestrita. Então, vamos supor que 
elas sejam iguais: P(w) = 1/3, i= 1, 2, 3. 

A Tabela 12.1 resume os resultados do reconhecimen- 
to obtidos com o treinamento e os conjuntos de dados in- 
dependentes. O percentual de treinamento e vetores de ca- 


Figura 12.13 Classificação bayesiana dos dados de uma imagem multiespectral. (a) a (d) Imagens dos seguintes componentes espectrais de 
acordo com seus comprimentos de onda: azul visível, vermelho visível, verde visível e quase infravermelho. (e) Máscara mostrando regiões da 
amostra de água (1), desenvolvimento urbano (2), e da vegetação (3). (f) Resultados da classificação: os pontos pretos representam pontos clas- 
sificados incorretamente. Os outros pontos (brancos) foram classificados corretamente. (g) Todos os pixels da imagem classificados como água 
(em branco). (h) Todas as imagens de pixels classificados como desenvolvimento urbano (em branco). (i) Todos os pixels da imagem classificados 


como vegetação (em branco). 
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Tabela 12.1 Classificação bayesiana dos dados de imagem multiespectral. 
Padrões de treinamento Padrões independentes 
Nº de Classificação por classes Corretas Nº de Classificação por classes Corretas 
Classe | amostras 1 2 3 (%) Classe | amostras 1 2 3 (%) 
1 484 482 2 0 99,6 1 483 478 3 2 98,9 
2 933 0 885 48 94,9 2 932 0 880 52 94,4 
3 483 0 19 464 96,1 3 482 0 16 466 96,7 


racteristicas independentes reconhecido corretamente era 
quase 0 mesmo para ambos os conjuntos de dados, indican- 
do estabilidade na estimativa do parâmetro. O maior erro 
nesses casos ocorreu com os padrões da área urbana. Isso não 
é inesperado, já que a vegetação aparece lá também (note 
que nenhum dos padrões na vegetação ou nas áreas urbanas 
foi classificado erroneamente como água). A Figura 12.13(f) 
mostra, com pontos pretos, os padrões que foram classifica- 
dos erroneamente e, com pontos brancos, os padrões que 
foram classificados corretamente. Não há pontos pretos 
visíveis na região 1, porque os 7 pontos classificados erro- 
neamente estão muito perto da fronteira da região branca. 


As figuras 12.13(g) a (i) são muito mais interessantes. 
Aqui, usamos os vetores médios e as matrizes de covariân- 
cia obtidas a partir dos dados de treinamento para classificar 
todos os pixels da imagem em uma de três categorias. A Fi- 
gura 12.13(g) mostra em branco todos os pixels classifica- 
dos como água. Os pixels não classificados como água são 
mostrados em preto. Vemos que o classificador bayesiano 
fez um excelente trabalho ao determinar quais partes da 
imagem eram água. A Figura 12.13(h) mostra em branco 
todos os pixels classificados como desenvolvimento urbano; 
repare em como o sistema se saiu bem no reconhecimento 
de características urbanas como pontes e estradas. A Figu- 
ra 12.13(i) mostra os pixels classificados como vegetação. A 
área do centro da Figura 12.13(h) apresenta uma alta concen- 
tração de pixels brancos no centro da cidade, com a diminuição 
da densidade em função da distância do centro da imagem. A 
Figura 12.13(i) mostra o efeito oposto, indicando a pouca 
vegetação em direção ao centro da imagem, onde o desen- 
volvimento urbano é muito maior. 

= 


Como vimos no início da Seção 10.3.3, o estabe- 
lecimento do limiar pode ser visto como um problema 
do classificador bayesiano, que atribui padrões a duas ou 
mais classes de maneira ótima. De fato, como mostra o 
problema anterior, a classificação pixel a pixel é realmen- 
te um problema de segmentação que divide uma imagem 
em dois ou mais tipos possíveis de região. Se apenas uma 
única variável (por exemplo, a intensidade) for usada, en- 
tão a Equação 12.2-17 se tornará uma função ótima que 
também faz as partições da imagem com base na intensida- 
de de seus pixels, como fizemos na Seção 10.3. Tenha em 
mente que a otimalidade exige que o PDF e a probabilida- 


de a priori de cada classe sejam conhecidos. Como men- 
cionamos anteriormente, estimar essas densidades não é 
tarefa trivial. Se devemos fazer suposições (por exemplo, 
como assumir as densidades gaussianas), então o grau 
de otimalidade alcançado na segmentação é proporcio- 
nal a quão perto esses pressupostos estão da realidade. 


12.2.3 Redes neurais 


As metodologias discutidas nas últimas duas seções 
estão baseadas na utilização de amostras de padrões para 
estimar os parâmetros estatísticos de cada classe de pa- 
drões. O classificador de distância mínima é especifica- 
do completamente pelo vetor médio de cada classe. Da 
mesma forma, o classificador bayesiano para populações 
gaussianas é especificado completamente pelo vetor mé- 
dio e pela matriz de covariância de cada classe. Os padrões 
(cuja classe é conhecida) utilizados para estimar esses pa- 
râmetros geralmente são chamados de padrões de treina- 
mento, e um conjunto de tais padrões de cada classe é cha- 
mado de conjunto de treinamento. O processo pelo qual um 
conjunto de treinamento é utilizado para obter funções 
de decisão é chamado de aprendizagem ou treinamento. 


Nas duas abordagens que acabamos de discutir, o 
treinamento é uma questão simples. Os padrões de trei- 
namento de cada classe são utilizados para calcular os 
parâmetros da função de decisão correspondente a essa 
classe. Após os parâmetros em questão serem estimados, a 
estrutura do classificador será estabelecida, e seu desempe- 
nho futuro dependerá de quão bem as verdadeiras popu- 
lações de padrões satisfazem os pressupostos estatísticos rea- 
lizados na derivação do método de classificação utilizado. 


As propriedades estatísticas das classes de padrões 
em um problema são frequentemente desconhecidas, 
ou não podem ser estimadas (lembremos da nossa bre- 
ve discussão na seção anterior sobre a dificuldade de tra- 
tamento com estatística multivariada). Na prática, tais 
problemas de decisão teórica são mais fáceis de abordar 
com métodos que produzam diretamente as funções de 
decisão requeridas por meio do treinamento. Portanto, 
torna-se desnecessária a adoção de suposições sobre as 


funções densidade de probabilidade ou outras informa- 
ções probabilísticas sobre as classes de padrões em consi- 
deração. Nesta seção, discutiremos várias abordagens que 
satisfazem este critério. 


Fundamentos 


A essência do material que se segue está na utili- 
zação de elementos básicos de computação não linear 
(chamados neurônios) organizados em redes, de maneira 
análoga à que se acredita que os neurônios estejam inter- 
conectados no cérebro. Os modelos resultantes recebem 
vários nomes, incluindo redes neurais, neurocomputadores, 
modelos de processamento paralelo distribuído (PDP, de paral- 
lel distributed processing), sistemas neuromórficos, redes auto- 
-adaptativas em camadas e modelos conexionistas. Aqui, usa- 
mos o nome de redes neurais. Usamos essas redes como 
base para o desenvolvimento adaptativo dos coeficientes 
das funções de decisão por meio de sucessivas apresenta- 
ções de conjuntos de padrões de treinamento. 


O interesse em redes neurais remonta ao início dos 
anos 1940, como exemplificado pelo trabalho de McCulloch 
e Pitts (1943). Eles propuseram modelos de neurônios na 
forma de dispositivos de limiarização binária e algoritmos 
estocásticos envolvendo mudanças súbitas de 0-1 e 1-0 
nos estados dos neurônios, como base para o modela- 
mento dos sistemas neurais. Os trabalhos posteriores de 
Hebb (1949) basearam-se em modelos matemáticos que 
tentavam capturar o conceito de aprendizagem por refor- 
ço ou associação. 


Em meados dos anos 1950 e início dos anos 1960, 
uma classe das chamadas máquinas de aprendizagem cria- 
das por Rosenblatt (1959, 1962) causou empolgação entre 
os pesquisadores e profissionais da teoria de reconheci- 
mento de padrões. A razão do grande interesse por essas 
máquinas chamadas perceptrons era o desenvolvimento de 
provas matemáticas mostrando que os perceptrons, quan- 
do treinados com conjuntos de treinamento linearmente 
separáveis (ou seja, conjuntos de treinamento separados 
por um hiperplano), iriam convergir para uma solução em 
um número finito de passos iterativos. A solução tomaria 
a forma de coeficientes de hiperplanos capazes de separar 
corretamente as classes representadas pelos padrões no 
conjunto de treinamento. 


Infelizmente, as expectativas após a descoberta do 
que parecia ser um modelo teórico bem fundamentado 
de aprendizado logo foram frustradas com desaponta- 
mento. O perceptron básico e algumas de suas generali- 
zações na época eram simplesmente inadequadas para 
a maioria das tarefas de reconhecimento de padrões de 
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importância prática. Tentativas posteriores para estender 
o poder das máquinas emuladoras do perceptron consi- 
derando as múltiplas camadas desses dispositivos, em- 
bora conceitualmente atraentes, careciam de algoritmos 
de treinamento eficazes, como aqueles que tinham sido 
criados para o próprio perceptron. O estado da arte da área 
de máquinas de aprendizagem em meados da década de 
1960 foi resumido por Nilsson (1965). Alguns anos mais 
tarde, Minsky e Papert (1969) apresentaram uma análise 
desanimadora das limitações das máquinas tipo percep- 
tron. Essa opinião foi mantida até meados dos anos 1980, 
como evidenciado pelos comentários de Simon (1986). 
Nesse trabalho, publicado originalmente em francês em 
1984, Simon descarta o perceptron sob o título Nascimento 
e morte de um mito. 


Os resultados mais recentes apresentados por Ru- 
melhart, Hinton e Williams (1986), relacionados com o 
desenvolvimento de novos algoritmos de treinamento 
para os perceptrons de múltiplas camadas, mudaram as coi- 
sas consideravelmente. O método básico deles, geralmen- 
te chamado de regra generalizada delta para o aprendizado 
por retropropagação, fornece um método de treinamento 
eficaz para as máquinas de múltiplas camadas. Apesar de 
esse algoritmo de treinamento não ter provado se conse- 
gue chegar a uma solução no sentido da prova análoga 
para o perceptron de camada única, a regra generalizada 
delta tem sido usada com sucesso em diversos problemas 
de interesse prático. Esse sucesso fez com que as máqui- 
nas de múltiplas camadas tipo perceptron fossem um dos 
principais modelos de redes neurais atualmente em uso. 


Perceptron para duas classes de padrões 
Em sua forma mais básica, o perceptron aprende 
uma função de decisão linear que dicotomiza dois con- 
juntos de treinamento linearmente separáveis. A Figura 
12.14(a) mostra esquematicamente o modelo de percep- 
tron para duas classes de padrões. A resposta desse dispo- 
sitivo básico é baseada em uma soma ponderada de suas 
entradas, isto é, 
n 
d(x) = X wx, tw 


i=l 


(12.2-29) 


n+l 


que é uma função de decisão linear com relação aos com- 
ponentes dos vetores de características. Os coeficientes 
wt = l, 2,.. n, n + l, chamados pesos, modificam as en- 
tradas antes de serem somadas e introduzidas no elemen- 
to de limiarização. Nesse sentido, os pesos são análogos às 
sinapses no sistema neural humano. A função que ma- 
peia a saída da soma na saída final do dispositivo algumas 
vezes é chamada de função de ativação. 
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Figura 12.14 Duas representações equivalentes do modelo de perceptron para duas classes de padrões. 


Quando d(x) > 0, o elemento de limiarização faz 
com que a saída do perceptron seja + 1, indicando que o 
padrão x foi reconhecido como pertencente à classe w. 
O inverso é verdadeiro quando d(x) < 0. Esse modo de 
operação está de acordo com as observações feitas an- 
teriormente com respeito à Equação 12.2-2 sobre o uso 
de uma função de decisão simples para duas classes de 
padrões. Quando d(x) = 0, x fica na superfície de deci- 
são que separa as duas classes de padrões, resultando em 
uma condição indeterminada. A fronteira de decisão im- 
plementada pelo perceptron é obtida igualando-se a Equa- 
ção 12.2-29 a zero: 


n 


dx)=Lwx,+w,,=0 


i=l 


(12.2-30) 


ou 


que é a equação de um hiperplano no espaço n-dimen- 
sional de padrões. Geometricamente, os primeiros n coefi- 
cientes estabelecem a orientação do hiperplano, enquanto 
o último coeficiente, w |, é proporcional à distância per- 
pendicular da origem até o hiperplano. Assim, se w,,, = 0, 
o hiperplano passa pela origem do espaço de padrões. Da 
mesma forma, se w,=0, 0 hiperplano é paralelo ao eixo Xp 


A saída do elemento de limiarização na Figura 12.14(a) 
depende do sinal de d(x). Em vez de testar a função 
toda para determinar se é positiva ou negativa, poderia- 
mos testar a parte do somatório da Equação 12.2-29 em 
relação ao termo w |, e a saída do sistema seria 


n 
+1 se 5 oe, > Wy 
= i=l 
0 = n 
W;X;<—w 
i=] 


(12.2-32) 


E 1 se n+l 


Essa implementação é equivalente à Figura 12.14(a) 
e aparece na Figura 12.14(b) — e a única diferença con- 
siste no fato de a função limiar ser deslocada por um 
montante — w, e a entrada da unidade constante não 
estar mais presente. Voltaremos à equivalência dessas 
duas formulações mais adiante, quando falarmos da im- 
plementação de redes neurais de múltiplas camadas. 


Outra formulação é frequentemente usada para au- 
mentar os vetores de características acrescentando um ele- 
mento (n + 1), que é sempre igual a 1, independentemente 
da classe à qual pertença. Ou seja, um vetor de características 
aumentado y é criado a partir do vetor de características x, 
fazendo-se y = x, i= 1, 2, ..., n, e acrescentando o elemento 
adicional y, = 1. A Equação 12.2-29, então, fica 


n+l 


=w'y (12.2-33) 


sendo que y = (Y, Yy -Yy 1)” é agora um vetor de ca- 
racterísticas aumentado, e W = (W,, Wy ...,W, W,, ,)" é cha- 
mado de vetor de pesos. Essa expressão é geralmente mais 
conveniente em termos de notação. Independentemente 
da fórmula utilizada, porém, o principal problema é en- 
contrar w usando um conjunto de treinamento de veto- 
res de características para cada uma das duas classes. 


Algoritmos de treinamento 


Os algoritmos desenvolvidos na discussão a seguir 
são representativos das várias abordagens propostas ao 
longo dos anos para o treinamento de perceptrons. 


Classes linearmente separáveis: um algoritmo simples e inte- 
rativo para obter um vetor de pesos solução para dois con- 
juntos de treinamento linearmente separáveis é apresen- 
tado a seguir. Partindo de dois conjuntos de treinamento 
de vetores de características aumentados pertencentes às 
classes de padrões w, e w, respectivamente, deixaremos 
que w(1) represente o vetor inicial de pesos, que pode 
ser escolhido arbitrariamente. Então, no k-ésimo passo 
iterativo, se y(k) € w, e w” (k)y(k) < 0, substitua w(k) por 

w(k + 1) = w(k) + cy(k) (12.2-34) 


sendo c um incremento positivo de correção. Por outro 
lado, se y(k) € w, e w"(k)y(k) > 0, substitua w(k) por 


w(k + 1) = w(k) — cy(k) (12.2-35) 
Caso contrário, deixe w(k) inalterado: 
w(k + 1) = w(k) (12.2-36) 
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Esse algoritmo faz uma alteração em w apenas se o pa- 
drão a ser considerado no k-ésimo passo da sequência de 
treinamento apresentar um erro de classificação. O in- 
cremento de correção c é assumido como positivo e, por 
ora, é considerado constante. Esse algoritmo, às vezes, é 
chamado de regra de incremento fixo de correção. 


A convergência do algoritmo ocorre quando todo 
o conjunto de treinamento para ambas as classes passa 
pelos ciclos da máquina sem que ocorram erros. A regra de 
correção de aumento fixo converge em um número finito 
de etapas se os dois conjuntos de padrões de treinamento 
forem linearmente separáveis. Uma prova desse resulta- 
do, algumas vezes chamado de teorema de treinamento do 
perceptron, pode ser encontrada nos livros de Duda, Hart 
e Stork (2001); Tou e Gonzalez (1974); e Nilsson (1965). 


Exemplo 12.5 Ilustração do algoritmo do perceptron 


Considere os dois conjuntos de treinamento apre- 
sentados na Figura 12.15(a), cada um composto por dois 
padrões. O algoritmo de treinamento será bem-sucedido 
porque os dois conjuntos de treinamento são linearmente 
separáveis. Antes de o algoritmo ser aplicado, os padrões são 
aumentados, gerando o conjunto de treinamento ((0, 0, 1)”, 
(0, 1, 1)"} para a classe w e {(1, 0, 1)", (1, 1, 1)"} para a 
classe w,. Deixando que c = 1, w(1) = 0, e apresentando os 
padrões na ordem, obtemos a seguinte sequência de passos: 


0 
w’ (l)y(1) =[0,0,0]/0/=0 w(2)=w(D+y()=|0 
1 


em 
O e w 


Figura 12.15 (a) Padrões pertencentes a duas classes. (b) Fronteira 
de decisão determinada por treinamento. 
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w’ (3)y(3) =[0,0,1]}0/=1 w(4)=w()-y6)=| 0 


l -1 
w”(4)y(4)=[-1,0,0]1|=—1 
l 


nos quais as correções no vetor de peso foram feitas no pri- 
meiro e terceiro passos em virtude de classificações erradas, 
como indicado nas equações 12.2-34 e 12.2-35. Já que uma 
solução foi obtida somente quando o algoritmo produziu 
uma iteração sem nenhum tipo de erro em todos os padrões 
de treinamento, o conjunto de treinamento deve ser apre- 
sentado novamente. O processo de aprendizagem da máqui- 
na continua fazendo y(5) = y(1), y(6) = y(2), y(7) = y(3), 
e y(8) = y(4), e prosseguindo da mesma maneira. A conver- 
gência é atingida para k = 14, levando a uma solução w(14) = 
(-2, 0, 1)7. A função de decisão correspondente é d(y) = 
—2y, + 1. Voltando ao espaço de padrões original fazendo 
x,= y, produz d(x) = —2x,+1, que, quando definido como 
igual a zero, torna-se a equação da fronteira de decisão da 
Figura 12.15(b). 

E 


Classes não separáveis: na prática, classes de padrões line- 
armente separáveis são a exceção (pouco frequente), e 
não a regra. Portanto, uma quantidade significativa de 
pesquisas durante as décadas de 1960 e 1970 dedicou-se 
ao desenvolvimento de técnicas para lidar com as clas- 
ses de padrões não separáveis. Com os recentes avanços 
no treinamento das redes neurais, muitos métodos uti- 
lizados para lidar com o comportamento dos elementos 
não separáveis tornaram-se apenas assuntos de interesse 
histórico. Um dos primeiros deles, no entanto, é direta- 
mente relevante para este debate: a regra delta original. 
Conhecida como regra delta de Widrow-Hoff, ou regra delta 
de mínimos quadrados para o treinamento de perceptrons, o 
método minimiza o erro entre a resposta real e a desejada 
em cada passo do treinamento. 
Considere a função critério 
l T Aa 
Jw)=(r—w y) 
2 
sendo r a resposta desejada (isto é, r = + 1 se o vetor de 
características de treinamento aumentado y pertencer à 
classe w,, e r = -1 se y pertencer à classe w,). A tarefa con- 
siste em ajustar w incrementalmente na direção do gra- 
diente negativo de J(w), a fim de buscar o mínimo dessa 
função, que ocorre quando r = w'y, ou seja, o mínimo 
corresponde à classificação correta. Se w(k) representa o 
vetor de pesos no k-ésimo passo iterativo, um algoritmo 
geral de descida de gradiente pode ser escrito como: 


(12.2-37) 


OJ(w) 


w(k+1)=wik)-a 
Ow 


(12.2-38) 


w=w(k) 
sendo w(k + 1) o novo valor de w, e a > 0 a magnitude 
da correção. Da Equação 12.2-37, 


OW) q wyy 


(12.2-39) 
Ow 


Substituindo esse resultado na Equação 12.2-38, obtemos 


w(k + 1) = w(k) + a[r(k) — 
w'(k)y(k) ]y(k) 


com o vetor inicial de pesos, w(1), arbitrário. 


(12.2-40) 


Ao definir a variação (delta) no vetor de pesos como 


Aw = w(k + 1) — w(k) (12.2-41) 


podemos representar a Equação 12.2-40 sob a forma do 


algoritmo de correção delta: 


Aw = ae(k)y(k) (12.2-42) 


no qual 

(12.2-43) 
é o erro cometido com o vetor de pesos w(k) quando o 
padrão y(k) for apresentado. 


A Equação 12.2-43 fornece o erro do vetor de pesos 
w(k). Se o modificarmos para w(k + 1), mas deixarmos 


o mesmo padrão, o erro se tornará 
elk) = r(k) — w(k + Dy(k) (12.2-44) 


A mudança no erro é, então, 


=—Aw'y(k) (12.2-45) 
Mas Aw = ae(k)y(k), de modo que 
Ae(k) = —ae(k)y" (k)y(k) 

= —oe(k yo (12.2-46) 


Portanto, a mudança dos pesos reduz o erro por um fator 
a||y(k)||?. O próximo padrão de entrada começa um novo 
ciclo de adaptação, reduzindo o próximo erro por um fa- 
tor ally(k + 1)||?, e assim por diante. 


A escolha do a controla a estabilidade e a velocidade 
de convergência [Widrow e Stearns (1985)]. A esta- 
bilidade exige que 0 < a < 2. Um intervalo prático para 
a é0O1I<a< 1,0. Embora a prova não seja mostrada 
aqui, o algoritmo da Equação 12.2-40 ou das equações 


12.2-42 e 12.2-43 converge para uma solução que mini- 
miza o erro médio quadrático em relação aos padrões do 
conjunto de treinamento. Quando as classes de padrões 
são separáveis, a solução dada pelo algoritmo discutido 
anteriormente (Widrow-Hoff) pode ou não produzir um 
hiperplano separador. Ou seja, uma solução de erro mé- 
dio quadrático não implica uma solução no sentido do 
teorema de treinamento do perceptron. Essa incerteza é 
o preço que devemos pagar por usar um algoritmo que 
converge tanto para o caso separável quanto para o não 
separável nesta formulação específica. 

Os dois algoritmos de treinamento do perceptron dis- 
cutidos até o momento podem ser extrapolados para mais 
de duas classes e para funções de decisão não linear. Com 
base nos comentários históricos feitos anteriormente, ex- 
plorar os algoritmos de treinamento de múltiplas classes 
aqui tem pouca relevância. Em vez disso, abordaremos 
o treinamento de múltiplas classes no contexto de redes 
neurais. 


Redes neurais multicamadas feedforward 


Nesta seção, focaremos as funções de decisão em pro- 
blemas de reconhecimento de padrões multiclasses, inde- 


Pesos Wax; Pesos Wha 
a=1,2,...,Na4 b=1,2,...,NB 
j=1,2,...,n a=1,2,...,N4 
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pendentemente de as classes serem ou não separáveis, e 
envolvendo arquiteturas que consistam em camadas de ele- 
mentos computacionais como perceptrons. 


Arquitetura básica: a Figura 12.16 mostra a arquitetura de 
um sistema do modelo de rede neural em consideração. 
Ele consiste em camadas de elementos computacionais es- 
truturalmente idênticos (neurônios) dispostos de tal forma 
que a saída de cada neurônio em uma camada alimenta a 
entrada de cada neurônio na camada seguinte. O número 
de neurônios na primeira camada, chamada camada A, é 
de N,. Muitas vezes, N, = n, a dimensionalidade dos veto- 
res de características de entrada. O número de neurônios 
na camada de saída, chamada camada Q, é N, O número 
No é igual a W, o numero de classes de padrões que a 
rede neural foi treinada para reconhecer. A rede neural 
reconhece um vetor de características x como perten- 
cente à classe w se a i-ésima saída da rede é “alta”, 
enquanto todas as outras saídas são “baixas”, como é 
explicado no tópico seguinte. 


Como apresentado na Figura 12.16, cada neurônio 
tem a mesma forma que o modelo perceptron discutido 
anteriormente (ver Figura 12.14), com a exceção de que 


wn 


Classe w 


Vetor de 
característica 


Classe w2 


a 


de entrada 


Classe ww 
P Camada Q 
7 (camada de saída) 
No = W nodes 
Camada A Camada B Camada K Camada J Camada P 
Na nodes Np nodes Nx nodes Ny nodes Np nodes 


Figura 12.16 Modelo de redes neurais multicamadas feedforward. A figura em detalhe mostra a estrutura básica de cada neurônio da rede. O 


offset, 0,6 tratado como outro peso. 
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a função de ativação por limiar foi substituída por uma 
função de ativação do tipo “sigmoide”. A diferenciabilida- 
de ao longo de todos os caminhos da rede neural é neces- 
sária para o desenvolvimento da regra de treinamento. 
A função de ativação sigmoide a seguir tem a requerida 
diferenciabilidade: 


l 


= (140,0, 
Le UA 


na qual J, j = 1, 2, ..., N, representa a entrada do ele- 
mento de ativação de cada nó na camada J da rede, 0, é 
um offset, e 0, controla o formato da função sigmoide. 


h(L) 


1 1 


(12.2-47) 


A Equação 12.2-47 é traçada na Figura 12.17, com 
os limites para as respostas “alta” e “baixa” de cada neu- 
rônio. Portanto, quando essa função particular é usada, o 
sistema emite uma leitura alta para qualquer valor de 1, 
maior que 0, Da mesma forma, ele gera uma leitura baixa 
para qualquer valor de J, menor que 0, Conforme apre- 
sentado na Figura 12.17, a função de ativação sigmoide 
é sempre positiva e pode atingir seus valores-limites de 
0 e 1 apenas se a entrada para o elemento de ativação 
for infinitamente negativa ou positiva, respectivamente. 
Por essa razão, valores próximos a 0 e 1 (digamos, 0,05 e 
0,95) definem os valores baixo e alto na saída dos neurô- 
nios da Figura 12.16. Em princípio, os diferentes tipos de 
funções de ativação poderiam ser utilizados para diferen- 
tes camadas ou até mesmo para diferentes neurônios na 
mesma camada da rede. Na prática, a abordagem comum 
consiste em usar a mesma forma de função de ativação 
em toda a rede. 


Com referência à Figura 12.14(a), o offset 0, mostra- 
do na Figura 12.17 é análogo ao coeficiente de peso w, |, 
da discussão anterior sobre o perceptron. A implementa- 
ção dessa função de limiar deslocada pode ser feita na 
forma da Figura 12.14(a), absorvendo-se o offset 0, como 
um coeficiente adicional que modifica uma unidade de 
entrada constante para todos os elementos da rede. Para 
acompanhar a notação predominantemente encontrada 


Maior valor 
de 4, 


Menor valor 


=I 


0; —_+| 


Figura 12.17 Função de ativação sigmoide da Equação 12.2-47. 


na literatura, não mostraremos uma entrada constante 
de +1 separada em todos os elementos da Figura 12.16. 
Em vez disso, essa entrada e seus pesos de modificação 0, 
serão partes integrantes dos elementos da rede. Como se 
observa no detalhe da Figura 12.16, existe um coeficiente 
desses para cada um dos nós N, na camada J. 


Na Figura 12.16, a entrada de cada nó em qualquer 
camada é a soma ponderada das saídas da camada ante- 
rior. Fazendo com que K denote a camada anterior a J 
(não há uma ordem alfabética implícita na Figura 12.16), 
tem-se que a entrada do elemento de ativação de cada 
neurônio na camada J, denotado por I, é: 


(12.2-48) 


para j = 1, 2, ..., N, e N, é o número de neurônios da 
camada J, N, é o número de neurônios da camada K, e 
w, SãO OS pesos que modificam as saídas O, dos neurônios 
da camada K, antes de eles alimentarem os neurônios da 
camada J. As saídas da camada K são 


0,=h,(1,) (12.2-49) 


parak=1,2,...,N,. 

É importante chegar à compreensão clara da nota- 
ção subscrita utilizada na Equação 12.2-48, pois iremos 
utilizá-la no restante desta seção. Primeiro, observe que 
Lj=1,2,...,N, representa a entrada do elemento de 
ativação do j-ésimo nó na camada J. Portanto, I, repre- 
senta a entrada do elemento de ativação do primeiro neu- 
rônio da camada J (mais acima), J, representa a entrada 
do elemento de ativação do segundo nó da camada J, e 
assim por diante. Há N, entradas para cada nó da cama- 
da J, mas cada entrada individual pode ser ponderada de 
forma diferente. Portanto, as N, entradas do primeiro nó 
da camada J são ponderadas pelos coeficientes w,,, k= 1, 
2,...,N,; as entradas do segundo nó são ponderadas pelos 
coeficientes w,,, k = 1, 2,...,N,; e assim por diante. Por- 
tanto, um total de coeficientes N, x N, é necessário para 
especificar os pesos das saídas da camada K para alimen- 
tarem a camada J. Coeficientes N, adicionais de offset 0, 
são necessário para especificar completamente os nós na 
camada J. 

A substituição da Equação 12.2-48 pela Equação 
12.2-47 produz 


hgs l 


1 1 


(12.5-50) 


l+e 


Ny 
a +0; 1/0, 


queéafunçãodeativaçãoutilizadanorestante destaseção. 


Durante o treinamento, a adaptação dos neurônios 
na camada de saída é uma questão simples, pois a saída de- 
sejada de cada neurônio é conhecida. O principal problema 
no treinamento de uma rede multicamadas encontra-se no 
ajuste dos pesos nas chamadas camadas ocultas. Ou seja, nas 
outras diferentes da camada de saída. 


Treinamento por retropropagação: começamos nos concen- 
trando na camada de saída. O erro quadrático total entre 
as saídas desejadas, 1, e as saídas reais, O „ nos neurônios 
em uma camada (de saída) Q, é 


N 
5 2 
h= nu) 
q=l 


na qual N é o numero de neurônios na camada de saída 


Qeo 1 é utilizado por conveniência de notação para 
2 


calcular a derivada mais tarde. 


(12.2-51) 


O objetivo é desenvolver uma regra de treinamento, 
similar à regra delta, que permita o ajuste dos pesos em 
cada uma das camadas de modo a tentar minimizar uma 
função de erro como mostrado na Equação 12.2-51. Como 
antes, ajustam-se os pesos proporcionalmente à derivada 
parcial do erro em relação aos pesos. Em outras palavras, 

OE 


= Q 
a aor TA (12.2-52) 
qp 


sendo que a camada P precede a camada Q, Aw „ é defi- 
nida na Equação 12.2-42 e a é um incremento positivo 


de correção. 

O erro E, é uma função das saídas, 0, que, por sua 
vez, são funções das entradas I . Usando a regra da cadeia, 
desenvolvemos a derivada parcial de E, como segue: 


OE, OE, OI, 
eee es (12.2-53) 
dw, OF, Ow, 
A partir da Equação 12.2-48, 
al E 
: a Gi 0, =0, (12.2-54) 
Ow,» OW,» = p~p p 


Substituindo as equações 12.2-53 e 12.2-54 na Equação 
12.2-52, temos 


ðE, 
Awy S 
= 06,0, (12.2-55) 
em que 
6 = oR 12.2-56 
a (12.2-56) 
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Para poder calcular dF/OI , usamos a regra da cadeia 
para expressar a derivada parcial em termos de taxa 
de mudança de E, em relação a 0,ea taxa de mudança de 
O, em relação a 1. Isto é, 


OE, OE, 00 
i= = 4 (12.2-57) 
dl, 00, OI, 
A partir da Equação 12.2-51, 
OE 
Q_ 
ao -(r,-0,) (12.2-58) 
q 
e, a partir da Equação 12.2-49, 
00 0 ; 
Q = = 
=e h,(1,) =n, (1,) (12.2-59) 
q q 


Substituindo as equações 12.2-58 e 12.2-59 na Equação 
12.2-57, temos como resultado 


6 = (r,-0,)hi(L,) (12.2-60) 
que é proporcional à quantidade de erro (r, - 0). A 
substituição das equações 12.2-56 a 12.2-58 na Equação 


12.2-55 finalmente produz 


(12.2-61) 


Após ter especificado a função ho). todos os ter- 
mos da Equação 12.2-61 serão conhecidos ou poderão 
ser observados na rede. Em outras palavras, mediante a 
apresentação de qualquer padrão de treinamento na en- 
trada da rede, sabemos qual deve ser a resposta desejada, 
ry de cada nó de saída. O valor O, de cada nó de saída 
pode ser observado como acontece com 7, a entrada para 
os elementos de ativação da camada Q, e 0y a saída dos 
nós na camada P. Assim sabemos como ajustar os pesos 
que modificam as ligações entre a última e a penúltima 
camadas na rede. 

Continuando com nosso caminho para trás a partir 
da camada de saída, analisaremos agora o que acontece 
na camada P. A aplicação do mesmo procedimento leva a 


j 


Aw, =a(r,-0,)h.(1,)O 


=06,0, (12.2-62) 
sendo que o termo de erro é 
6 = (r,-0,)h'(L) (12.2-63) 


Com exceção de Ty todos os termos nas equações 
12.2-62 e 12.2-63 são conhecidos ou podem ser obser- 
vados na rede. Os termos r, não fazem sentido em uma 
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camada interna, pois não sabemos qual deveria ser a 
resposta de um nó interno em termos de pertinência de 
um padrão. Podemos especificar uma resposta r desejada 
apenas nas saídas da rede, onde ocorre a classificação fi- 
nal dos padrões. Se tivéssemos essas informações nos nós 
internos, não haveria necessidade de camadas adicionais. 
Portanto, temos de encontrar uma maneira de restabele- 
cer ô, em termos de quantidades que possam ser conheci- 
das ou observadas na rede. 


Voltando à Equação 12.2-57, escrevemos o termo 
de erro da camada P como 


ðE, ðE, 00, 


i= L, 00, OL (12.2-64) 


O termo d0,/OI não apresenta dificuldades. Como antes, é 


90, _ Oh, (z) = h 


Ol Ol o dia 


P P 


(12.2-65) 


que é conhecido, uma vez que h, é especificado, pois foi 
possível observar 7. O termo que produziu r, foi a de- 
rivada 0E,/00,, e por isso esse termo deve ser expresso 
de uma forma que não contenha r,. Usando a regra da 
cadeia, podemos escrever a derivada como 


E No OE. OI Mol OE Np 
OE, S808, Ol, _ SfE, O ga o 
do, “401,00, “01, 90,04“ 
“a |0E, 
FE dl, ap 


(12.2-66) 


sendo que o último passo segue da Equação 12.2-56. A 
substituição das equações 12.2-65 e 12.2-66 na Equação 
12.2-64 produz a expressão desejada para 6 : 


No 
ô, = h, Dito 


O parâmetro ô, pode ser calculado agora, uma vez 
que todos os seus termos são conhecidos. Assim, as equa- 
ções 12.2-62 e 12.2-67 estabelecem completamente a re- 
gra de treinamento para a camada P. A importância da 
Equação 12.2-67 é que calcula 6, a partir das quantida- 
des 6,e w, que são os termos computados na camada 
imediatamente posterior à camada P. Após o termo de 
erro e os pesos serem computados para a camada P, essas 
quantidades podem ser utilizadas da mesma forma para 
calcular o erro e os pesos para a camada imediatamente 
anterior à camada P. Em outras palavras, encontramos 


(12.2-67) 


uma maneira de propagar o erro para trás na rede, come- 
cando com o erro na camada de saída. 


Podemos resumir e generalizar o processo de trei- 
namento da seguinte forma: para quaisquer camadas K 
e J, onde a camada K precede imediatamente a camada 
J, calcule os pesos w, que modificam as conexões entre 
essas duas camadas, usando 


Aw, = 060, (12.2-68) 
Se a camada J for a camada de saída, ô, é 
6,= (r,- OKAI) (12.2-69) 


a ae 


Se a camada J for uma camada interna, e P, a camada 
seguinte (à direita), então ô, é dado por 


Np 
6, =h, (1) op (12.2-70) 
p= 
para j = 1, 2, ... , N, Usando a função de ativação na 
Equação 12.2-50 com 0, = 1, obtemos 
h(1)=0(1-0) (12.2-71) 


ISJ j J 


neste caso, as equações 12.2-69 e 12.2-70 assumem for- 
mas particularmente atraentes: 


ô = (r,- 0) 0, (1-0) (12.2-72) 
para a camada de saída e 
Np 
6,=0,(1-0,)5 6,0, (12.2-73) 


p=1 
para as camadas internas. Em ambas as equações, 12.2-72 
e 12.2-73, temos que j = 1,2, ..., N, 


As equações 12.2-68 até 12.2-70 constituem a re- 
gra delta generalizada para o treinamento da rede neural 
multicamada feedforward da Figura 12.16. O processo co- 
meça com um conjunto arbitrário de pesos (mas não com 
todos iguais) da rede. Em seguida, a aplicação da regra 
delta generalizada em qualquer passo iterativo envolve 
duas fases básicas. Na primeira, um vetor de treinamento 
é apresentado à rede e é propagado através das camadas 
da rede para computar a saída O, para cada nó. As saídas 
O, dos nós na camada de saída são, então, comparadas 
às respostas desejadas, r, para que os termos de erro 6, 
sejam gerados. A segunda fase envolve um caminho de 
volta pela rede durante o qual o sinal de erro apropriado 
é passado para cada nó, e são feitas as mudanças corres- 
pondentes nos pesos. Este procedimento também é apli- 
cado aos pesos de compensação (bias weights) 0.. Confor- 
me discutido anteriormente com algum detalhe, estes 
são tratados simplesmente como um peso adicional que 


modifica uma entrada unitária na junção de soma de 
cada nó da rede. 


A prática comum consiste em acompanhar o erro de 
rede, bem como os erros associados aos padrões individu- 
ais. Em uma sessão de treinamento bem-sucedida, o erro 
da rede diminui com o número de iterações, e o procedi- 
mento converge para um conjunto estável de pesos que 
apresentam apenas pequenas flutuações com o treina- 
mento adicional. A abordagem adotada para determinar 
se um padrão foi classificado corretamente durante o 
treinamento baseia-se em determinar se a resposta do 
nó na camada de saída, associada à classe de padrões 
da qual o padrão foi obtido, é alta, enquanto todos os 
outros nós apresentam resposta baixa, como foi defini- 
do anteriormente. 


Uma vez que o sistema tenha sido treinado, ele passa 
a classificar os padrões utilizando os parâmetros estabele- 
cidos durante a fase de treinamento. Em funcionamento 
normal, todas as operações de retroalimentação (feedback) 
são desligadas. Então, qualquer padrão de entrada é pro- 
pagado pelas diversas camadas, e o padrão é classificado 
como pertencente à classe do nó de saída que apresentar 
uma resposta alta, enquanto todos os outros nós apre- 
sentam resposta baixa. Se mais de uma saída for rotulada 
como alta, ou se nenhuma das saídas o for, a opção é de- 
clarar um erro de classificação ou, simplesmente, atribuir 
o padrão à classe da resposta com o maior valor numérico. 


= 
Exemplo 12.6 Classificação de formatos usando uma 
rede neural. 


Ilustraremos agora como uma rede neural do tipo 
apresentado na Figura 12.16 foi treinada para reconhecer 
os quatro formatos apresentados na Figura 12.18(a), bem 
como as versões ruidosas desses formatos, cujas amostras 
estão representadas na Figura 12.18(b). 


Os vetores de padrões foram gerados por meio do 
cálculo das assinaturas normalizadas dos formatos (veja a 
Seção 11.1.3) e, em seguida, obtendo 48 amostras unifor- 
memente espaçadas de cada assinatura. Os vetores quadra- 
gésimos octodimensionais resultantes formam as entradas 
da rede neural feedforward de três camadas que aparece na 
Figura 12.19. O número de neurônios na primeira camada 
foi escolhido para ser 48, correspondente à dimensionalida- 
de dos vetores de características de entrada. Os quatro neu- 
rônios na terceira camada (saída) correspondem ao número 
de classes de padrões, e o número de neurônios na camada 
intermediária foi especificado heuristicamente como 26 (a 
média do número de neurônios nas camadas de entrada e 
de saída). Não há regras conhecidas para especificar o nú- 
mero de neurônios nas camadas internas de uma rede neu- 
ral; de forma geral, esse número é baseado em experiências 
anteriores ou simplesmente é escolhido arbitrariamente e 
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AA AA 


Formato 1 Formato 2 Formato 3 Formato 4 
| | | 

Formato 1 Formato 2 Formato 3 Formato 4 
Figura 12.18 (a) Formatos de referência e (b) formatos ruidosos tí- 


picos usados no treinamento da rede neural da Figura 12.19. (Imagem 
original: cortesia do Dr. Lalit Gupta, Departamento ECE, Universidade 
do Sul de Illinois.) 


refinado depois por meio de testes. Na camada de saída, 
os quatro nós de cima para baixo, neste caso, representam 
as classes w, j = 1, 2, 3, 4, respectivamente. Uma vez que a 
estrutura da rede foi definida, as funções de ativação devem 
ser selecionadas para cada unidade e para cada camada. To- 
das as funções de ativação foram selecionadas para satisfazer 
à Equação 12.2-50 com 0 = 1 para que, de acordo com nos- 
sa discussão anterior, as equações 12.2-72 e 12.2-73 possam 
ser aplicadas. 


O processo de treinamento foi dividido em duas par- 
tes. Na primeira, os pesos foram inicializados como pequenos 
valores aleatórios com média zero, e a rede foi treinada com 
vetores de características correspondentes às amostras sem 
ruído, como os formatos apresentados na Figura 12.18(a). Os 
nós de saída foram monitorados durante o treinamento. A 
rede tinha, então, supostamente aprendido os formatos das 
quatro classes quando, para qualquer padrão de treinamento 
da classe w, os elementos da camada de saída resultaram em 
0,20,95parag=1,2,...,Nyq= i. Em outras palavras, para 
qualquer padrão de classe w, a unidade de saída correspon- 
dente a essa classe deveria ser alta (> 0,95) e, simultaneamen- 
te, a saída de todos os outros nós deveria ser baixa (< 0,05). 


A segunda parte do treinamento foi realizada com 
amostras ruidosas, geradas da seguinte maneira: cada pixel 
do contorno em um formato não ruidoso recebia uma pro- 
babilidade V de reter suas coordenadas originais no plano da 
imagem e uma probabilidade R = 1 - V de ser aleatoriamen- 
te designado para as coordenadas de um de seus oito pixels 
vizinhos. O nível de ruído era aumentado diminuindo-se V 
(ou seja, aumentando-se R). Dois conjuntos de dados rui- 
dosos foram gerados. O primeiro consistia em 100 padrões 
ruidosos de cada classe gerados alterando R entre 0,1 e 0,6, 
o que resultou em um total de 400 padrões. Esse conjunto, 
chamado de conjunto de teste, foi utilizado para estabelecer o 
desempenho do sistema após o treinamento. 
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Figura 12.19 Rede neural de três camadas utilizada no reconhecimento dos três formatos da Figura 12.18 (Imagem original: cortesia do Dr. Lalit 


Gupta, Departamento ECE, Universidade do Sul de Illinois.) 


Vários conjuntos com dados ruidosos foram gerados 
para treinar o sistema com dados ruidosos. O primeiro gru- 
po consistia de 10 amostras de cada classe, geradas usando 
R, = 0, no qual R denota um valor de R usado para gerar 
o conjunto de treinamento. Começando com os vetores de 
peso obtidos na primeira parte (sem ruído) do treinamento, 
o sistema prosseguiu em uma sequência de aprendizagem 
com 0 novo conjunto de dados. Já que R, = 0 significa a au- 
sência de ruído, esse “treinamento” repetido era de fato uma 
extensão do treinamento anterior, livre de ruído. Partindo 
dos pesos aprendidos dessa maneira, foi apresentado o con- 
junto de dados de teste à rede, o que levou aos resultados 
mostrados pela curva rotulada como R = 0 na Figura 12.20. 
O número de padrões classificados erroneamente, dividido 
pelo número total de padrões testados, fornece a probabili- 
dade de erro de classificação, que é uma medida comumente 
utilizada para determinar o desempenho da rede neural. 


Em seguida, começando com os vetores de peso apren- 
didos pela utilização dos dados gerados com R, = 0, o sistema 
foi treinado novamente com um conjunto de dados ruidosos 
gerados com R = 0,1. O desempenho do reconhecimento foi 
então estabelecida pela nova utilização das amostras de teste 
no sistema com o novo conjunto de pesos. Observe a melho- 


ra significativa no desempenho. A Figura 12.20 mostra os 
resultados obtidos pela continuidade desse processo de trei- 
namento e testes contínuos para R = 0,2, 0,3 e 0,4. Como 
esperado, se o sistema está aprendendo corretamente, a pro- 
babilidade de errar a classificação dos padrões a partir do 
conjunto de teste se reduz conforme o valor de R aumenta 
em razão de que o sistema ter sido treinado com dados mais 
ruidosos para valores maiores de R. A única exceção na Fi- 
gura 12.20 é o resultado de R, = 0,4. O motivo para essa 
exceção é o pequeno número de amostras utilizadas para 
treinar o sistema. Ou seja, a rede não foi capaz de se adap- 
tar totalmente a grandes variações do formato em níveis de 
ruído mais elevados com o número de amostras utilizadas. 
Essa hipótese é comprovada pelos resultados na Figura 
12.21, que mostram uma menor probabilidade de erro de 
classificação conforme o aumento do número de amostras 
de treinamento. A Figura 12.21 também mostra como refe- 
rência a curva da Figura 12.20 para de R = 0,3. 


Os resultados anteriores revelam que uma rede neu- 
ral de três camadas foi capaz de aprender a reconhecer for- 
matos corrompidos por ruído após uma fase modesta de 
treinamento. Mesmo quando treinado com dados livres 
de ruído (R, = 0 na Figura 12.20), o sistema foi capaz de 
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Figura 12.20 Desempenho da rede neural em função do nível de ru- 
ído. (Imagem original: cortesia do Dr. Lalit Gupta, Departamento ECE, 
Universidade do Sul de Illinois.) 


atingir um nível de reconhecimento correto de cerca de 
77%, quando testado com dados muito corrompidos pelo 
ruído (R = 0,6 na Figura 12.20). A taxa de reconhecimento 
sobre os mesmos dados aumentou para quase 99% quando 
o sistema foi treinado com dados mais ruidosos (R = 0,3 
e 0,4). É importante notar que o sistema foi treinado au- 
mentando seu poder de classificação com pequenas adições 
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Figura 12.21 Melhoria no desempenho para F, = 0,4, obtida pelo 
aumento do número de padrões de treinamento (a curva para A, = 0,3 
é apresentada como referência). (Imagem original: cortesia do Dr. Lalit 
Gupta, Departamento ECE, Universidade do Sul de Illinois.) 
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incrementais e sistemáticas de ruído. Quando a natureza do 
ruído for conhecida, esse método será ideal para melhorar 
as propriedades de estabilidade e convergência de uma rede 
neural durante a aprendizagem. 

= 


Complexidade das superfícies de decisão: já foi demonstrado 
que um perceptron de camada única implementa um hi- 
perplano como superfície de decisão. Uma pergunta na- 
tural a essa altura é: Qual é a natureza das superfícies 
de decisão implementadas por uma rede multicamada, 
como a do modelo da Figura 12.16? Na discussão a se- 
guir, fica claro que uma rede de três camadas é capaz de 
implementar de forma arbitrária superfícies complexas de 
decisão compostas por hiperplanos que se interceptam. 


Como ponto de partida, considere a rede de duas 
camadas e duas entradas mostrada na Figura 12.22(a). 
Com duas entradas, os padrões são bidimensionais e, por- 
tanto, cada nó na primeira camada da rede implementa 
uma reta em um espaço bidimensional. Chamamos de 
le 0, respectivamente, as saídas alta e baixa desses dois 
nós. Suponhamos que uma saída 1 indica que o vetor de 
entrada correspondente a um dado nó na primeira ca- 
mada está do lado positivo da reta. Então, as possíveis 
combinações de resultados que alimentam o único nó na 
segunda camada são: (1, 1), (1, 0), (0, 1) e (0, 0). Se de- 
finirmos duas regiões, uma para a classe w,, que fica do 
lado positivo de ambas as retas, e outra para a classe w,, 
que fica em qualquer outro lugar, o nó de saída poderá 
classificar qualquer padrão de entrada como pertencente 
a uma dessas duas regiões simplesmente realizando uma 
operação lógica do tipo E. Em outras palavras, o nó de 
saída responde com um 1, indicando a classe w , somente 
quando ambas as saídas da primeira camada forem 1. A 
operação E pode ser executada por um neurônio como 
já discutido, se 6, é definido como um valor no interva- 
lo semiaberto (1, 2]. Assim, se assumirmos 0 e 1 como 
respostas da primeira camada, a resposta do nó de saída 
será alta, indicando a classe w, apenas se a soma realizada 
pelo nó neural sobre as duas saídas da primeira camada 
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Figura 12.22 (a) Uma rede neural feedforward com duas camadas e 


duas entradas. (b) e (c) Exemplos de fronteiras de decisão que podem 
ser implementadas com esta rede. 
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for maior que 1. As figuras 12.22(b) e (c) mostram como 
a rede da Figura 12.22(a) pode separar em dois, com su- 
cesso, duas classes de padrões que não poderiam ser se- 
paradas por uma única superfície linear. 


Se o número de nós na primeira camada aumentar 
para três, a rede da Figura 12.22(a) vai implementar uma 
fronteira de decisão que consiste na interseção de três re- 
tas. A restrição de que a classe w, fique do lado positivo 
de todas elas produz uma região convexa delimitada pe- 
las três retas. Na verdade, uma região convexa arbitrária 
aberta ou fechada pode ser construída simplesmente au- 
mentando o número de nós na primeira camada de uma 
rede neural de duas camadas. 


O próximo passo lógico consiste em aumentar o nú- 
mero de camadas para três. Nesse caso, os nós da primei- 
ra camada implementam retas, como antes. Os nós da 
segunda camada executam então as operações lógicas do 
tipo E para formar regiões a partir das várias retas. Os nós 
da terceira camada atribuem a pertinência a diversas re- 
giões. Por exemplo, suponha que a classe w, seja formada 
por duas regiões distintas, cada uma das quais delimitada 
por um conjunto diferente de retas. Então, dois dos nós 
na segunda camada são para as regiões correspondentes 
à mesma classe de padrões. Um dos nós de saída deve 
ser capaz de sinalizar a presença dessa classe quando um 
dos dois nós da segunda camada responder fortemente. 
Assumindo que as condições de alta e baixa na segun- 
da camada sejam indicadas por 1 e 0, respectivamente, 


esse recurso é obtido fazendo com que os nós de saída da 
rede executem a operação lógica OU. Em termos dos nós 
neurais da forma discutida anteriormente, fazemos isso 
definindo 0, em um valor no intervalo semiaberto [0, 1). 
Então, sempre que pelo menos um dos nós na segunda 
camada associado a esse nó de saída responder fortemen- 
te (responder com 1), o nó correspondente na camada 
de saída responderá da mesma forma, indicando que o 
padrão sendo processado pertence à classe associada a 
esse nó. 


A Figura 12.23 resume as observações anteriores. 
Repare na terceira linha que a complexidade das regiões 
de decisão implementadas por uma rede de três camadas 
é, em princípio, arbitrária. Na prática, geralmente surge 
uma dificuldade séria na estruturação da segunda cama- 
da para que responda corretamente às várias combina- 
ções associadas às classes particulares. A razão é que as 
retas não param simplesmente em sua interseção com 
outras retas, e, como resultado, podem ocorrer padrões 
da mesma classe em ambos os lados das retas no espaço de 
padrões. Em termos práticos, a segunda camada pode ter 
dificuldades para determinar quais retas devem ser incluí- 
das na operação lógica E para uma determinada classe de 
padrões — ou pode mesmo ser uma tarefa impossível de 
realizar. A referência ao problema da operação lógica OU 
exclusivo na terceira coluna da Figura 12.23 lida com o 
fato de que, se os padrões de entrada eram binários, ape- 
nas quatro padrões diferentes poderiam ser construídos 
em duas dimensões. Se os padrões forem arranjados de 
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Figura 12.23 Tipos de regiões de decisão que podem estar formadas por redes feedforward de uma ou várias camadas com uma e duas 
camadas de unidades ocultas e duas entradas. (Imagem original: cortesia de Lippman.) 


maneira que a classe w, consista dos padrões {(0, 1), (1, 
0)), e a classe w, consista dos padrões {(0, 0), (1, 1)), então 
a pertinência dos padrões nessas duas classes é dada pela 
função lógica OU exclusivo (X-OU), que só será 1 quando 
o valor de uma das duas variáveis for 1, e será O no caso con- 
trário. Assim, um valor X-OU 1 indica padrões da classe w, 
e um valor X-OU 0 indica que os padrões são da classe w,. 


A discussão anterior é generalizada para n dimen- 
sões de maneira direta: em vez de retas, lidamos com hi- 
perplanos. Uma rede de uma única camada implementa 
um único hiperplano. Uma rede de duas camadas imple- 
menta arbitrariamente regiões convexas constituídas por 
interseções de hiperplanos. Uma rede de três camadas 
implementa superfícies de decisão de complexidade ar- 
bitrária. O número de nós usados em cada camada deter- 
mina a complexidade nos dois últimos casos. O número 
de classes no primeiro caso é limitado a dois. Nos outros 
dois casos, o número de classes é arbitrário porque o nú- 
mero de nós de saída pode ser selecionado para se ajustar 
ao problema em questão. 


Considerando as observações anteriores, é lógico 
perguntar: Por que alguém estaria interessado em es- 
tudar redes neurais com mais de três camadas? Afinal, 
uma rede de três camadas pode implementar superfícies 
de decisão de complexidade arbitrária. A resposta está 
no método utilizado para treinar uma rede para utili- 
zar apenas três camadas. A regra de treinamento para 
a rede na Figura 12.16 minimiza uma medida de erro, 
mas não diz nada sobre como associar grupos de hiper- 
planos com nós específicos na segunda camada de uma 
rede de três camadas do tipo discutido anteriormente. 
Na verdade, ainda não foi resolvido o problema de como 
realizar análises de compromisso entre o número de ca- 
madas e o número de nós em cada camada. Na prática, 
o compromisso geralmente é resolvido por tentativa e 
erro ou por uma experiência anterior com o domínio de 
um dado problema. 


12.3 Métodos estruturais 


As técnicas discutidas na Seção 12.2 tratam de pa- 
drões quantitativos, ignorando quaisquer relações estrutu- 
rais inerentes à forma do padrão. Os métodos estruturais 
discutidos nessa seção, no entanto, procuram realizar o 
reconhecimento de padrões lançando mão precisamen- 
te desses tipos de relacionamento. Aqui, apresentaremos 
duas metodologias básicas para o reconhecimento de for- 
matos de fronteiras com base nas representações de strings. 
As strings consistem na abordagem mais prática para o re- 
conhecimento de padrões estruturais. 
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12.3.1 Casamento de números do formato 


Um procedimento análogo ao conceito de distân- 
cia mínima introduzido na Seção 12.2.1 para vetores de 
características pode ser formulado para a comparação de 
fronteiras de região que sejam descritas em termos de nú- 
meros do formato. Com referência à discussão na Seção 
11.2.2, o grau de similaridade k, entre duas fronteiras de re- 
giões (formatos) é definido como a maior ordem na qual 
seus números do formato ainda coincidem. Por exemplo, 
digamos que a e b denotem números de formas de frontei- 
ras fechadas representadas por códigos da cadeia de 4 dire- 
ções. Esses dois formatos têm um grau de similaridade k se: 


sta) =s(b) paraj= 4, 6, 8, ..., k 


J 
s(a) = s,(b) paraj=k+2,k+4,.. (12.3-1) 


em que s indica o numero do formato, e o subscrito indica 
a ordem. A distância entre os dois formatos, a e b, é defini- 
da como o inverso de seu grau de similaridade: 


Dane: (12.3-2) 
k 
A distância satisfaz as seguintes propriedades: 
D(a,b)>0 
D(a,b)=0 sea=b 
D(a,b) < máx[D(a,b), D(b,c)] (12.3-3) 


Tanto k como D podem ser utilizados na comparação entre 
dois formatos. Se o grau de similaridade for usado, quan- 
to maior for k, mais similares serão os formatos (note que 
k é infinito para formatos idênticos). O inverso será ver- 
dadeiro quando a medida de distância for usada. 


= 
Exemplo 12.7 Utilizando números do formato para 
comparar formatos. 


Suponha que tenhamos um formato fe desejamos en- 
contrar seu casamento mais próximo em um conjunto de 
outros cinco formatos diferentes (a, b, c, d, e), como mos- 
trado na Figura 12.24(a). Esse problema é análogo a termos 
cinco formatos protótipos e tentarmos encontrar o melhor 
casamento para um determinado formato desconhecido. A 
busca pode ser visualizada com ajuda da árvore de similari- 
dade mostrada na Figura 12.24(b). A raiz da árvore corres- 
ponde ao menor grau possível de similaridade que, para este 
exemplo, é 4. Suponha que os formatos sejam idênticos até 
o grau 8, com exceção do formato a, cujo grau de similari- 
dade com relação a todos os outros formatos é 6. Descendo 
pela árvore, vemos que o formato d tem um grau de simi- 
laridade 8 em relação a todos os outros, e assim por diante. 
Os formatos fe c casam de maneira única, com um grau de 
similaridade maior que os outros dois formatos. No outro 
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Figura 12.24 (a) Formatos. (b) Árvore de similaridade hipotética. (c) Matriz de similaridade. (Imagem original: Bribiesca e Guzman.) 


extremo, se a tivesse sido um formato desconhecido, tudo o 
que poderíamos dizer usando este método é que a era simi- 
lar a todos os outros formatos com grau de similaridade 6. 
A mesma informação pode ser resumida por meio de uma 
matriz de similaridade, como mostrado na Figura 12.24(c). 
E 


12.3.2 Casamento de strings 


Suponha que duas fronteiras de região, a e b, sejam 
codificadas como strings (ver Seção 11.5) denotadas por 
aa, ..a, e bb ...b,, respectivamente. Seja a o número 

n 12 m 
de casamentos entre duas strings, no qual um casamento 
ocorre na k-ésima posição se a, = b,. O número de sim- 
bolos que não casam é 


b = máx(lal, Ibl) — a (12.3-4) 


sendo largl o tamanho (número de símbolos) na repre- 
sentação da string do argumento. Pode ser demonstrado 
que 5 = 0 se, e somente se, a e b forem idênticas (ver 
Exercício 12.21). 

Uma medida simples de similaridade entre a e b é 
a razão 


R a a 


(12.3-5) 


E b E máx(lal,b— a 


r 


Assim, R é infinito para um casamento perfeito, e 
0 quando nenhum dos símbolos entre a e b casarem 
(a = 0 neste caso). Como o casamento é feito símbolo 
a símbolo, o ponto de partida em cada fronteira é im- 
portante em termos de redução do custo computacional. 
Qualquer método que normalize para o mesmo ponto de 
partida, ou para o próximo, é útil, desde que isso represen- 
te uma vantagem computacional em relação ao casamento 
por força bruta, que consiste em partir de pontos arbitrários 
em cada string seguido do deslocamento de uma das strings 
(com os últimos elementos voltando à primeira posição) e 
do cálculo da Equação 12.3-5 para cada deslocamento. 
O maior valor de R proporciona o melhor casamento. 


= 
Exemplo 12.8 Ilustração do casamento de strings. 


As figuras 12.25(a) e (b)mostram exemplos de fron- 
teira para uma de duas classes de objetos, que foram apro- 
ximadas por ajuste poligonal (ver Seção 11.1.3). As figu- 
ras 12.25(c) e (d) mostram as aproximações poligonais que 
correspondem às fronteiras indicadas nas figuras 12.25(a) e 
(b), respectivamente. Formaram-se as strings a partir dos po- 
lígonos calculando o ângulo interior, 0, entre os segmentos 
na medida em que cada polígono era percorrido no sentido 
horário. Os ângulos foram codificados em um de oito pos- 
síveis símbolos, correspondendo a incrementos de 45º, ou 
seja, 0° <0<45º,2,:45º <0< 909; ...; a: 315° < 0 < 360º. 
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Moo ib le id ie a i [iene ae 2 
la oo 2a co 
1b| 160 œ DO 335 o 
lel 96 263 œ 2c| 48 58 œ 
me si 81 103 œ 2d) 36 42 193 œ 
Me 47 72 103 142 œ DO 28 33 92 183 œ 
If) 47 72 103 84 237 œ% DE 26 30 77 135 270 œ 
ER R da db de dd ie lá 
2a | 124 150 132 147 1,55 148 
2b| 1,18 143 132 147 1,55 148 
2c] 102 1,18 1,19 132 139 1,48 
2d) 102 1,18 1,19 132 129 1,40 
2e| 093 107 108 1,19 1,24 1,25 
2£ | 089 102 102 124 122 118 


Figura 12.25 
(e) a (g) tabelas de A. (Imagem original: Sze e Yang.) 


A Figura 12.25(e) mostra os resultados do cálculo da 
medida R para seis amostras do objeto 1 em relação a si 
mesmas. As entradas correspondem aos valores de R e, por 
exemplo, a notação 1.c refere-se à terceira string da classe de 
objetos 1. A Figura 12.25(f) mostra os resultados da compa- 
ração das strings da segunda classe de objeto em relação a si 
mesmas. Finalmente, a Figura 12.25(g) mostra uma tabela 
dos valores de R obtidos pela comparação das strings de uma 
classe em relação à outra. Note que, aqui, todos os valores 
de R são consideravelmente menores do que qualquer en- 
trada nas duas tabelas anteriores, indicando que a medida 
R alcançou um grau elevado de discriminação entre as duas 
classes de objetos. Por exemplo, se a pertinência da string 1.a 
fosse desconhecida, o menor valor de R resultante da compa- 
ração entre essa string e as strings de amostra (protótipas) de 
classe 1 teria sido 4,7 (Figura 12.25(e)). Em contrapartida, 
o maior valor ao compará-la com as strings da classe 2 teria 
sido 1,24 (Figura 12.25(g)). Esse resultado poderia ter levado 
à conclusão de que a string 1.a pertence à classe de objetos 1. 
Essa abordagem de classificação é parecida com o classificador 
de distância mínima introduzido na Seção 12.2.1. 

= 


(a) e (b) Exemplos de fronteiras de duas classes diferentes de objetos; (c) e (d) suas aproximações poligonais correspondentes; 


Resumo 


A partir do Capítulo 9, nosso tratamento do proces- 
samento de imagens digitais começou uma transição dos 
processos cujas saídas eram imagens para os processos cujas 
saídas são características das imagens, no sentido definido 
na Seção 1.1. Embora o material no presente capítulo seja 
de natureza introdutória, os temas são fundamentais para 
o entendimento do estado da arte de reconhecimento de 
objetos. Como mencionado no início deste capítulo, o re- 
conhecimento de objetos individuais é o lugar lógico para 
concluir este livro. Para ir além deste ponto, precisamos de 
conceitos que estão além do escopo que definimos, lá na 
Seção 1.4, para a nossa viagem. Concretamente, o próxi- 
mo passo lógico seria o desenvolvimento de métodos de 
análise de imagens, cujo desenvolvimento apropriado re- 
quer conceitos de inteligência artificial. 


Como foi mencionado nas seções 1.1 e 1.4, a in- 


teligência artificial e algumas áreas que dela dependem, 
como a análise de cenários e a visão computacional, ainda 
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estão em fase relativamente precoce de desenvolvimento 
prático. As soluções dos problemas de análise de imagens 
de hoje são caracterizadas por abordagens heurísticas. 
Embora essas abordagens sejam realmente variadas, a 
maioria delas partilha uma base importante de técnicas 
que são precisamente os métodos abordados neste livro. 


Uma vez concluído o estudo do material nos últimos 
doze capítulos, você está agora em posição de entender as 
principais áreas envolvidas no processamento da imagem 
digital, tanto do ponto de vista teórico quanto do práti- 
co. Tomamos todos os cuidados em todas as discussões 
para estabelecer uma base sólida sobre a qual um estudo 
mais aprofundado desta e de outras áreas afins possa ser 
realizado. Dada a natureza específica dos problemas em 
muitas imagens, um entendimento claro dos princípios 
básicos aumenta significativamente as chances de chegar 
a uma solução de sucesso. 


Referências e leituras suplementares 


O material de fundo para as seções 12.1 a 12.2.2 são 
os livros de Theodoridis e Koutroumbas (2006), Duda, 
Hart e Stork (2001) e de Tou e Gonzalez (1974). O artigo 
de revisão é de Jain etal. (2000), e é interessante também. 
O livro de Principe et al. (1999) apresenta uma boa visão 
geral das redes neurais. Vale a pena comparar a edição es- 
pecial da revista IEEE Trans. Image Processing (1998) com 
o número especial semelhante que saiu onze anos antes 
[IEEE Computer (1988)]. O material apresentado na Seção 
12.2.3 é introdutório. Na verdade, o modelo de rede neu- 
ral utilizado nessa discussão é apenas um dos inúmeros 
modelos propostos ao longo dos anos. Contudo, o mode- 
lo que discutimos é representativo e também é bastante 
utilizado no processamento de imagens. O exemplo do 
reconhecimento de formatos ruidosos foi adaptado de 
Gupta et al. (1990, 1994). O artigo de Gori e Scarselli 
(1998) discute o poder de classificação das redes neurais 
multicamada. Uma abordagem apresentada por Ueda 
(2000), baseada no uso de combinações lineares de redes 
neurais para alcançar o erro mínimo de classificação, é 
uma leitura adicional recomendável para esse contexto. 


Para ler mais sobre o material da Seção 12.3.1, con- 
sulte Bribiesca e Guzman (1980). Sobre casamento de 
strings, veja Sze e Yang (1981), Oommen e Loke (1997), e 
Gdalyahu e Weinshall (1999). Referências adicionais so- 
bre métodos estruturais de reconhecimento de padrões 
podem ser encontradas em Gonzalez e Thomason (1978), 
Fu (1982), Bunke e Sanfeliu (1990), Tanaka (1995), Vai- 
laya et al. (1998), Aizaka e Nakamura (1999), e Jonk et 
al. (1999). Veja também o livro de Huang (2002). 


Exercícios” 


12.1 (a) Calcule as funções de decisão de um classificador 
de distância mínima para os padrões apresentados 
na Figura 12.1. Você pode obter os vetores mé- 
dios necessários com uma (cuidadosa) inspeção. 


(b) Desenhe as superfícies de decisão implementadas 
pelas funções de decisão em (a). 


*12.2 Mostre que as equações 12.2-4 e 12.2-5 desempe- 
nham a mesma função em termos de classificação de 
padrões. 


12.3 Mostre que a superfície dada pela Equação 12.2-6 é a 
bissetriz perpendicular ao segmento de reta que une 
os pontos n-dimensionais m, e m. 


*12.4 Mostre como o classificador de distância mínima, 
discutido em conexão com a Figura 12.7, poderia ser 
implementado usando W bancos de resistores (W é 
o número de classes), uma junção da soma em cada 
banco (para correntes somatórias), e um seletor má- 
ximo capaz de selecionar o número máximo de en- 
tradas W, no qual as entradas são correntes. 


12.5 Mostre que o coeficiente de correlação da Equação 
12.2-8 tem valores no intervalo [-1, 1]. (Dica: expres- 
se \ = (x, y) na forma vetorial.) 


*12.6 Uma experiência produz imagens binárias de gotas que 
são quase elípticas (ver figura a seguir). As gotas são de 
três tamanhos, com os valores médios dos eixos prin- 
cipais das elipses sendo (1,3, 0,7), (1,0, 0,5) e (0,75, 
0,25). As dimensões desses eixos variam +10% so- 
bre os seus valores médios. Desenvolva um sistema de 
processamento de imagem que possa rejeitar as elipses 
incompletas ou superpostas e que possa classificar as 
elipses restantes em uma das três classes de tamanho 
possíveis. Mostre sua solução como um diagrama de 
blocos, dando detalhes específicos sobre o funciona- 
mento de cada bloco. Resolva o problema de classifi- 
cação utilizando um classificador de distância mínima, 
indicando de forma clara como você resolveria a ob- 
tenção de amostras de treinamento e como você po- 
deria usar esses exemplos para treinar o classificador. 


* Soluções detalhadas dos exercícios marcados com asterisco po- 


dem ser encontradas no site do livro. O site também contém su- 
gestões de projetos baseados no material neste capítulo. 


12.7 


*12.8 


12.9 


As classes de padrões a seguir têm funções densidade 

de probabilidade gaussiana: w,:{(0, 0)”, (2, 0)”, (2, 2)’, 

(0, 2)7) e w,:{(4, 4)”, (6, 4)”, (6, 6)”, (4, 6)7. 

(a) Assuma que P(w,) = P(w,)= + e obtenha a equa- 
ção da fronteira de decisão bayesiana entre essas 
duas classes. 


(b) Faça o desenho da fronteira. 


Repita o Exercício 12.7, mas desta vez use as classes de 
padrões a seguir: w,:{(— 1, 0)”, (0, — 1)", (1, 0)7, (0, 1)"} 
e w,:{(— 2, 0)", (0, — 2)", (2, 0)”, (0, 2)"}. Observe que 
essas classes não são separáveis linearmente. 

Repita o Exercício 12.6, mas dessa vez use um classifi- 
cador bayesiano (assuma densidades gaussianas). In- 
dique de forma clara como você resolveria o problema 
de obtenção de amostras de treinamento e como po- 
deria usar essas amostras para treinar o classificador. 


*12.10 As funções de decisão bayesiana d(x) = p(x/w) 


P(w), j= 1, 2, .. W foram derivadas usando uma 
função de perda 0-1. Prove que essas funções de de- 
cisão minimizam a probabilidade de erro. (Dica: a 
probabilidade de erro p(e) é 1 — p(c), em que p(c) 
é a probabilidade de estar correto. Para um vetor 
de características x pertencente à classe w,, p(c/x) = 
p(w,/x). Encontre p(c) e mostre que p(c) é máximo 
[p(e) é mínimo], quando p(w,/x) P(w,) é maximo.) 


12.11 (a) Aplique o algoritmo do perceptron para as clas- 


ses de padrões a seguir: w,:{(0, 0, 0)”, (1, 0,0)”, 
(1, 0, 1)% (1,1, 0) e w,:{(0, 0, 1)”, (0, 1, 1)’, 
(0, 1,0)", (1, 1, 1)"}. Assuma que c= 1, ew(1) = 
(=], 2.2). 0)", 

(b) Faça um esboço da superficie de decisão obtida 
em (a). Mostre as classes de padrões e indique o 
lado positivo da superfície. 


*12.12 O algoritmo do perceptron dado nas equações 12.2-34 


até 12.2-36 pode se expressar de forma mais conci- 
sa multiplicando os padrões da classe w, por —1, caso 
em que os passos de correção do algoritmo se tornam 
w(k + 1) = w(k) de outra forma. Esta é uma das 
várias formulações do algoritmo do perceptron que 
podem ser derivadas a partir da equação geral descen- 
dente do gradiente 


w(k+1)= wa- wv) 
Ow 


w=w(k) 


sendo que c > 0, J(w,y) é uma função critério e a 
derivada parcial é avaliada em w = w(k). Mostre 
que a formulação do algoritmo do perceptron pode 
ser obtida a partir desse procedimento geral des- 
cendente do gradiente, usando a função critério 


J(w,y)= Hwyl = w'y), sendo largl o valor absolu- 


to do argumento. (Nota: a derivada parcial de w'y em 
relação a w é igual a y.) 


12.13 


*12.14 


12.15 


*12.16 


12.17 


*12.18 


12.19 


*12.20 


12.21 


12.22 
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Prove que o algoritmo de treinamento da rede per- 
ceptron dado nas equações 12.2-34 até 12.2-36 con- 
verge em um número finito de passos se os conjun- 
tos de padrões de treinamento forem linearmente 
separáveis. [Dica: multiplique os padrões da classe 
w, por -1 e considere um limiar não negativo, T, de 
modo que o algoritmo de treinamento do perceptron 
(com c = 1) possa ser expresso como w(k + 1) = 
w(k), se w'(k)y(k) > T e w(k+ 1) = w(k) + y(k) de 
outra forma. Pode ser necessário utilizar a desigual- 
dade de Cauchy-Schwartz: IlalPIIbIP > (ab)?.] 


Especifique a estrutura e os pesos de uma rede neu- 
ral capaz de executar exatamente a mesma função de 
um classificador de distância mínima para duas clas- 
ses de padrões no espaço n-dimensional. 


Especifique a estrutura e os pesos de uma rede neu- 
ral capaz de executar exatamente a mesma função de 
um classificador bayesiano para duas classes de pa- 
drões no espaço n-dimensional. As classes são gaus- 
sianas com diferentes médias, mas com as matrizes 
de covariância iguais. 


(a) Em quais condições as redes neurais dos exerci- 
cios 12.14 e 12.15 são idênticas? 


(b) A regra delta generalizada desenvolvida para as 
redes neurais multicamada feedforward produz 
a rede neural particular em (a) se treinada com 
um número suficientemente amplo de amostras? 


Duas classes de padrões em duas dimensões são dis- 
tribuídas de tal forma que os padrões da classe w, 
se espalham aleatoriamente ao longo de um círculo de 
raio r,. Da mesma forma, os padrões de classe w, se 
espalham aleatoriamente ao longo de um círculo 
de raio r, no qual r, = 2r,. Especifique a estrutura de 
uma rede neural com o número mínimo de camadas 
e nós necessários para classificar adequadamente os 
padrões dessas duas classes. 


Repita o Exercício 12.6, mas desta vez utilize uma 
rede neural. Indique de forma clara como você re- 
solveria o problema de obtenção de amostras de 
treinamento e como poderia usar tais amostras para 
treinar o classificador. Selecione a rede neural mais 
simples possível que, em sua opinião, seja capaz de 
resolver o problema. 

Mostre que a expressão h (1) = O(1 — 0), dada na 
Equação 12.2-71, na qual k (1) = dh(1)/0I, decorre 
da Equação 12.2-50 com 0, = 1. 

Mostre que a medida da distância D(A, B) da Equa- 
ção 12.3-2 satisfaz as propriedades dadas na Equa- 
ção 12.3-3. 

Mostre que 8 = máx(lal, Ibl) - a na Equação 12.3-4 
é 0 se, e somente se, a e b forem strings idênticas. 
Uma fábrica produz pequenas bandeiras norte-ame- 
ricanas para eventos esportivos. A equipe de controle 
de qualidade observou que, durante os períodos de 
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pico de produção, algumas máquinas de impressão 
têm uma tendência a pular (aleatoriamente) entre 
uma e três estrelas e uma ou duas faixas inteiras da 
bandeira. Fora esses erros, as bandeiras são perfeitas 
em todos os sentidos. Embora as bandeiras que con- 
têm erros representem uma pequena porcentagem da 
produção total, o gerente da fábrica decide resolver 
o problema. Depois de muita investigação, ele con- 
clui que o controle automático utilizando técnicas de 
processamento de imagem é a forma mais econômica 
de resolver o problema. As especificações básicas são 
as seguintes: as bandeiras têm aproximadamente 7,5 
x 12,5 cm. Movem-se longitudinalmente na linha de 


produção (individualmente, mas com +15º de varia- 
ção na orientação) a aproximadamente 50 cm/s com 
uma separação entre bandeiras de aproximadamente 
5 cm. Em todos os casos, “aproximadamente” signifi- 
ca +5%. O gerente da fábrica o contrata para criar um 
sistema de processamento de imagem para cada linha 
de produção. Você é informado de que custo e simpli- 
cidade são parâmetros importantes para determinar a 
viabilidade de sua abordagem. Crie um sistema com- 
pleto baseado no modelo da Figura 1.23. Documente 
sua solução (incluindo os pressupostos e as especifica- 
ções) em um relatório breve (porém claro) dirigido ao 
gerente da fábrica. 


Apêndice 


Tabelas de codificação para 
a compressão de Imagens 


Apresentação 


Este apêndice contém tabelas de códigos para usar na compressão CCITT e JPEG. As tabelas A.1 e A.2 são 
tabelas de códigos Huffman modificadas para a compressão CCITT de grupo 3 e 4. As tabelas entre A.3 e A.5 
são para a codificação dos coeficientes JPEG DCT. Para mais informações sobre o uso destas tabelas, consulte 


as seções 8.2.5 e 8.2.8 do Capitulo 8. 


Tabela A.1 Códigos de terminação CCITT. 


Tamanho da Palavra- Palavra- Tamanho da Palavra- Palavra- 

sequência | -código branca | -código preta sequência | -código branca | -código preta 
0 00110101 0000110111 32 00011011 000001101010 
1 000111 010 33 00010010 00000110101 
2 0111 11 34 00010011 000011010010 
3 000 10 35 00010100 00001101001 
4 011 011 36 00010101 000011010100 
5 100 0011 37 00010110 00001101010 
6 110 0010 38 0001011 000011010110 
7 111 00011 39 00101000 00001101011 
8 0011 000101 40 0010100 000001101100 
9 0100 000100 4 00101010 00000110110 
0 00111 0000100 42 0010101 000011011010 
1 01000 0000101 43 00101100 00001101101 
2 001000 0000111 44 0010110 000001010100 
3 000011 00000100 45 00000100 000001010101 
4 110100 00000111 46 00000101 000001010110 
5 11010 000011000 47 00001010 000001010111 
6 101010 0000010111 48 00001011 000001100100 
1 101011 0000011000 49 01010010 000001100101 
8 0100111 0000001000 50 01010011 000001010010 
9 0001100 00001100111 51 01010100 000001010011 
20 0001000 00001101000 52 01010101 000000100100 
21 0010111 00001101100 53 00100100 000000110111 


(continua) 
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Tabela A.1 (continuação) 


Tamanho da Palavra- Palavra- Tamanho da Palavra- Palavra- 
sequência | -código branca | -código preta sequência | -código branca | -código preta 
22 0000011 00000110111 54 0010010 000000111000 
23 0000100 00000101000 55 01011000 000000100111 
24 0101000 00000010111 56 0101100 000000101000 
25 0101011 00000011000 57 01011010 000001011000 
26 0010011 000011001010 58 0101101 000001011001 
21 0100100 000011001011 59 01001010 000000101011 
28 0011000 000011001100 60 0100101 000000101100 
29 00000010 000011001101 61 00110010 000001011010 
30 00000011 000001101000 62 0011001 000001100110 
31 00011010 000001101001 63 00110100 000001100111 
Tabela A.2 Códigos de construção CCITT. 
Tamanho da Palavra- Palavra- Tamanho da Palavra- Palavra- 
sequência código branca código preta sequência código branca | código preta 
64 11011 0000001111 960 011010100 000000111001 
128 10010 000011001000 024 01101010 0000001110100 
192 01011 000011001001 088 011010110 000000111010 
256 0110111 000001011011 152 01101011 0000001110110 
320 00110110 000000110011 216 011011000 000000111011 
384 00110111 000000110100 280 01101100 0000001010010 
448 01100100 000000110101 344 011011010 000000101001 
512 01100101 0000001101100 408 01101101 0000001010100 
576 01101000 0000001101101 472 010011000 000000101010 
640 01100111 0000001001010 536 01001100 0000001011010 
704 011001100 0000001001011 600 010011010 000000101101 
768 011001101 0000001001100 664 011000 0000001100100 
832 011010010 0000001001101 728 010011011 000000110010 
896 011010011 0000001110010 
Palavra-código Palavra-código 
1792 00000001000 2240 000000010110 
1856 00000001100 2304 000000010111 
1920 00000001101 2368 000000011100 
1984 000000010010 2432 000000011101 
2048 000000010011 2496 000000011110 
2112 000000010100 2560 000000011111 
2176 000000010101 


Tabela A.3 Categorias de codificação dos coeficientes JPEG 
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Intervalo Categoria de diferença DC Categoria AC 
0 0 N/A 
—1,1 1 1 
—3, —2, 2,3 2 2 
Tu AA 3 3 
—15....,—8,8,...,15 4 4 
—31,..., —16, 16,..., 31 5 5 
—63,... , —32, 32,... , 63 6 6 
—127,..., —64, 64,... , 127 1 7 
—255,..., —128, 128,... , 255 8 8 
—511,..., —256, 256,... , 511 9 9 
—1023,..., —512, 512,... , 1023 A A 
—2047,..., —1024, 1024... , 2047 B B 
—4095,... , —2048, 2048,... , 4095 C C 
—8191,..., —4096, 4096... , 8191 D D 
—16383...., —8192, 8192... , 16383 E E 
—32767,..., — 16384, 16384,... , 32767 F N/A 
Tabela A.4 Códigos DC padrão JPEG (luminância). 
Categoria Código-base Tamanho Categoria Código-base Tamanho 
0 010 3 6 1110 10 
1 011 4 7 11110 12 
2 100 5 8 111110 14 
3 00 5 9 1111110 16 
4 101 7 A 11111110 18 
5 110 8 B 111111110 20 
Tabela A.5 Códigos AC padrão JPEG (luminância). 
sequência! Código-base Tamanho Sequéncia Código-base Tamanho 
Categoria Categoria 
0/0 1010 (= EOB) 4 
0/1 00 3 8/1 11111010 9 
0/2 01 4 8/2 11111111000000 17 
0/3 100 6 8/3 11111111011011 19 
0/4 1011 8 8/4 111111110111000 20 
0/5 11010 10 8/5 111111111011100 21 
0/6 111000 12 8/6 1111111110111010 22 
0/7 1111000 14 8/7 111111111011101 23 
0/8 1111110110 18 8/8 1111111110111100 24 
0/9 1111111110000010 25 8/9 11111111011110 25 
O/A 1111111110000011 26 8/A 111111110111110 26 
1/1 1100 5 9/1 11111000 10 
1/2 111001 8 9/2 111111111011111 18 
1/3 1111001 10 9/3 1111111111000000 19 
1/4 111110110 13 9/4 111111111100000 20 
1/5 11111110110 16 9/5 1111111111000010 21 
1/6 1111111110000100 22 9/6 11111111100001 22 
1/7 1111111110000101 23 9/7 111111111000100 23 
1/8 1111111110000110 24 9/8 11111111100010 24 


(continua) 
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Tabela A.5 


(continuação) 
sequencia Código-base Tamanho sequencia Código-base Tamanho 
Categoria Categoria 
1/9 1111111110000111 25 9/9 111111111000110 25 
1/A 1111111110001000 26 9/A 111111111100011 26 
2/1 11011 6 A/1 111111001 10 
2/2 11111000 10 AM 1111111111001000 18 
2/3 1111110111 13 AB 11111111100100 19 
2/4 1111111110001001 20 A/4 111111111001010 20 
2/5 1111111110001010 21 A/S 11111111100101 21 
2/6 1111111110001011 22 A/6 111111111001100 22 
2/1 1111111110001100 23 A/T 111111111100110 23 
2/8 1111111110001101 24 A/8 1111111111001110 24 
2/9 1111111110001110 25 A/S 111111111100111 25 
2/A 1111111110001111 26 A/A 111111111010000 26 
3/1 111010 7 B/1 11111010 10 
3/2 1111101 11 B/2 11111111101000 18 
3/3 11111110111 14 B/3 1111111111010010 19 
3/4 1111111110010000 20 B/4 111111111101001 20 
3/5 1111111110010001 21 B/5 1111111111010100 21 
3/6 1111111110010010 22 B/6 111111111101010 22 
3/7 1111111110010011 23 B/7 111111111010110 23 
3/8 1111111110010100 24 B/8 11111111101011 24 
3/9 1111111110010101 25 B/9 111111111011000 25 
3/A 1111111110010110 26 B/A 111111111101100 26 
4/1 111011 1 01 1111111010 11 
4/2 1111111000 12 C/2 1111111111011010 18 
4/3 1111111110010111 19 0/3 111111111101101 19 
4/4 1111111110011000 20 C/4 111111111011100 20 
4/5 1111111110011001 21 C/5 11111111101110 21 
4/6 1111111110011010 22 C/6 111111111011110 22 
4/7 1111111110011011 23 0/7 111111111101111 23 
4/8 1111111110011100 24 C/8 1111111111100000 24 
4/9 1111111110011101 25 C/9 111111111110000 25 
4/A 1111111110011110 26 C/A 1111111111100010 26 
5/1 1111010 8 D/1 1111111010 12 
5/2 1111111001 12 D/2 11111111110001 18 
5/3 1111111110011111 19 D/3 111111111100100 19 
5/4 1111111110100000 20 D/4 111111111110010 20 
5/5 1111111110100001 21 D/5 1111111111100110 21 
5/6 1111111110100010 22 D/6 111111111110011 22 
5/7 1111111110100011 23 D/7 1111111111101000 23 
5/8 1111111110100100 24 D/8 11111111110100 24 
5/9 1111111110100101 25 D/9 111111111101010 25 
5/A 1111111110100110 26 D/A 11111111110101 26 
6/1 1111011 8 E/1 111111110110 13 
6/2 11111111000 13 E/2 1111111111101100 18 
6/3 1111111110100111 19 E/3 111111111110110 19 
6/4 1111111110101000 20 E/4 1111111111101110 20 
6/5 1111111110101001 21 E/5 11111111110111 21 
6/6 1111111110101010 22 E/6 111111111110000 22 
6/7 1111111110101011 23 E/7 11111111111000 23 


(continua) 
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(continuação) 
sequência? Código-base Tamanho sequencia Código-base Tamanho 
Categoria Categoria 
6/8 1111111110101100 24 E/8 1111111111110010 24 
6/9 1111111110101101 25 E/9 11111111111001 25 
6/A 1111111110101110 26 E/A 111111111110100 26 
111 1111100 9 F/0 111111110111 12 
7/2 11111111001 13 F/1 111111111111010 17 
7/3 11111111101011 19 F/2 1111111111110110 18 
7/4 1111111110110000 20 F/3 111111111111011 19 
7/5 111111111011000 21 F/4 1111111111111000 20 
7/6 1111111110110010 22 F/5 11111111111100 21 
7/1 1111111110110011 23 F/6 111111111111010 22 
7/8 1111111110110100 24 F/7 11111111111101 23 
7/9 111111111011010 25 F/8 1111111111111100 24 
7/A 1111111110110110 26 F/9 111111111111110 25 
F/A 111111111111110 26 
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Descritores regionais 
área, 541 
compacidade e, 541-543 
componentes principais, 115 
conteúdo de textura de, 545-552 
contraste, 548-550 


Índice remissivo 617 


correlação, 548-550 
descritores relacionais, 561 
entropia, 546, 548 
homogeneidade, 548, 550 
invariantes de momento para, 552-555 
matriz de co-ocorrência em nível de cinza, 547 
número de Euler, 543 
perímetro, 541 
probabilidade máxima, 548-550 
razão de circularidade para, 541-543 
topológicos, 543-545 
uniformidade, 548-550 
Descritores topológicos, 543-545 
Detecção de bordas, 296-298, 462-478 
baseada em wavelets, 337 
bordas em degrau, 457-458, 461-462 
bordas em forma de telhado ou roofedge, 456, 462-463 
bordas em rampa, 457-458, 462 
derivadas, 103-105, 456-457 
detecção, 478 
detector de bordas de Canny, 474-478 
detector de bordas de Marr-Hildreth, 470-474 
efeito espaguete, 472-473 
falso negativo, 475 
falso positivo, 475 
filtros espaciais e, 458 
gradiente, 108, 296, 398, 443, 464-470. Veja também 
Gradiente 
gradiente e limiarização, 469-470 
Laplaciano da Gaussiana (LoG - Laplacian of a 
Gaussian), 471 
ligação de bordas, 478-486 
limiarização por histerese, 475 
máscaras de Prewitt, 466-468, 517-518 
máscaras de Roberts, 108, 467 
máscaras de Sobel, 109-111, 466-468, 518-519 
modelos para, 462-464 
supressão não máxima, 476 
Detecção de linhas, 459-462 
Detecção de pontos. Veja Segmentação 
Detector de bordas de Canny, 474-478 
Detector de bordas de Marr-Hildreth, 470-474 
Diagrama de cromaticidade, 262-264 
Digital 
filtro. Veja Filtros 
imagem, definição de, 1 
Digital Video Disks (DVDs), 349-350 
Digitalizador, 18, 31 
Dilatação. Veja Processamento morfológico de imagens 
Distancia chessboard, 46 
Distancia city block, 46 
Distância de Mahalanobis, 502. Veja também Medidas 
de distância 
Distorção de média absoluta (MAD - mean absolute 
distortion), 390 
Dominio da frequência, 131-203, 513-515 
aliasing. Veja Aliasing 
amostragem. Veja Amostragem 
caracteristicas adicionais, 166-167 
convolução. Veja Convolução 
espectro de Fourier, 158-160 
filtragem. Veja Filtragem no domínio da frequência 
impulso. Veja Impulso 
movimento na segmentação, 513-516 
propriedade de sifting. Veja Impulso 
série de Fourier, 131-132, 133 
transformada de Fourier. Veja Transformada de Fourier 
transformada discreta de Fourier (DFT - discrete Fourier 
transform). Veja Transformada discreta de Fourier 
transformada rápida de Fourier (FFT - fast Fourier 
transform). Veja Transformada discreta de Fourier 
Domínio espacial 
convolução. Veja Convolução 
correlação. Veja Correlação 
correspondência no domínio da frequência, 171 
definição, 38 
diferença de transformadas de imagens, 60-61 
filtragem. Veja Filtragem espacial 
operações, 55-59 
DPI, 38, 153, 369 
Duplicação sucessiva, 197 


E 


Entropia, 352-352 

Equação de dilatação, 321 

Equação de refinamento, 321 

Erosão. Veja Processamento morfológico de imagens 


Erro de raiz quadrática média (SNR - root mean square), 
233, 354-355 
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Erro médio quadrático (MSE - mean square error) 
filtragem no, 232-234 

medida, 232 

Erros de previsão, 386 

Escala 
geométrica. Veja Transformações geométricas 
Escala de cinza, 28, 33. Veja também Intensidade 
Espectro. Veja Transformada de Fourier, Transformada 
discreta de Fourier 

Espectro de Fourier, 71, 135-136, 158-160 

ângulo de fase e, 158-160 

plotagem da frequência de, 135-136 
transformações logarítmicas e, 71 

Espectro de frequência. Veja também Espectro 
codificação em sub-bandas, 469 

FWT, 328, 339 

pacotes wavelet, 340-341 

Espectro de poténcia, 158, 232 


Espectro eletromagnético (EM - eletromagnetic), 1, 5-12, 


27-29 
banda de micro-ondas, 12-13, 28-29 
banda de radio, 12-13, 29 
banda visivel, 8-12, 28 
fonte de imagem do, 5-6 
geracao de imagens no, 5-12 
importancia do, 5 
luz e, 27-29 
raios gama, 6, 28-29 
raios X, 6-7, 28-29 
regiões infravermelhas, 8-12, 29 
unidades de, 28, 29 
Espessamento. Veja Processamento morfológico de 
imagens 
Esqueletos, 429-430, 535-536 
Estimativa, 228-230 
Estimativa da função de degradação, 227-230 
Estimativa de movimento, 390-392 
Estimativa imparcial, 92 
Euclidiana 
distância, 59. Veja também Medidas de distância 
norma, 60 
Expansões, 317-323, 323-324 
análise multirresolução (MRA - multiresolution 
analysis), 317, 320-321 
biortogonais, 318 
coeficientes de, 318 
funções de base das, 318 
funções de escala, 318-321 
funções wavelet para, 321-323 
ortonormais, 318 
redundantes, 318 
série, 317-318, 323-324 
séries wavelet, 323-324 
Expansões de série, 317-319, 323-324 


F 


Faixa dinâmica, 37 
Falso contorno, 39, 65, 78, 413 
Fatiamento por planos de bits, 76-77 
FAX, 367 
Fechamento, 420-422, 441-443, 447 
morfologia em escala de cinza e, 441-443, 447 
operação morfológica de, 420-422 
reconstrução por, 447 
Fecho convexo 
definição, 426 
extração, 426-428 
para descrição, 533-535 
Filtradas por feixes paralelos 
retroprojeções, 246-247 
Filtragem 
espacial. Veja Filtragem espacial 


frequência. Veja Filtragem no domínio da frequência 


Filtragem de ênfase em alta frequência, 188-190 
Filtragem de Wiener, 232-234 
Filtragem digital de sinais, 310-312 
Filtragem espacial, 68-130, 211-220 
adaptativa local, 217-218 
adaptativa mediana, 218-220 
aguçamento, 102-110 
combinação de métodos de realce, 110-112 
convolução e, 96-99 
correlação e, 96-99 
definição, 68 
estatística de ordem, 102, 213 
funcionamento da, 94 
fundamentos, 94-100 
linear, 94-102 
máscaras. Veja Filtros espaciais 
não linear, 94, 102, 211-220 


redução de ruído por, 211-220 
representação de vetor, 99 
suavização, 100-102 
técnicas fuzzy para, 112-125 
Filtragem high-boost, 107-108, 188-190 
Filtragem homomórfica, 190 
Filtragem inversa, 230-232 
Filtragem no domínio da frequência, 166-195. Veja 
também Filtragem espacial 
aguçamento, 184-192 
correspondência com filtragem espacial, 171-172, 176 
ênfase de alta frequência, 188 
filtro box, 136 
ros Butterworth, 177-179, 186, 192-194, 220- 
222, 231-232 


fi 
filtros Gaussianos para, 168-169, 173-175, 179-181, 
186-187, 192-194, 220-222 
filtros high-boost, 188 
filtros homomórficos, 190-192 
filtros ideais, 140-141, 148, 170, 176-177, 181, 184- 
186, 192, 220-222 
filtros notch, 192-195, 220-224 
filtros passa-alta para, 167, 184-187 
filtros passa-baixa, 141, 167, 176-184 
filtros passa-banda, 192-195, 220-224 
filtros rejeita-banda, 192-195, 220-224 
fundamentos, 167-171 
Laplaciano, 187-188 
máscara de nitidez, 188 
passos, 171 
suavização, 176-184 
unsharp masking, 188 
Filtragem por mínimos quadrados com restrições, 235-237 
Filtro de média 
alpha cortada, 214-216 
aritmética, 211 
contra-harmônica, 212 
geométrica, 211, 237-238 
harmônica, 211-212 
Filtro de ponto médio, 214 
Filtro de Ram-Lak, 247 
Filtro Gaussiano 
espacial. Veja Filtragem espacial 
frequência. Veja Filtragem no domínio da frequência 
Filtro ideal. Veja Filtragem no domínio da frequência 
Filtro min, 102, 214 
Filtros 
desconvolução, 227 
deslocamento de fase zero, 171 
dominio da frequéncia. Veja Filtragem no dominio 
da frequéncia 
espacial. Veja Filtros espaciais, Filtragem espacial 
função de transferência, 167 
janela de Hamming, 248 
janela de Hann, 248 
kernels, 94. Veja também Filtros espaciais 
reconstrução, 14 
resposta ao impulso finita (FIR - finite impulse 
response), 172, 311 
Filtros adaptativos. Veja Filtros espaciais 
Filtros Butterworth 
agucamento utilizando, 183-184 
notch, 192, 222 
passa-alta (BHPF), 186 
passa-baixa (BLPF), 177-179, 230-232 
passa-banda, 192, 221 
rejeita-banda, 192, 220 
suavizacao utilizando, 177-179 
Filtros de deslocamento de fase zero, 170-171, 193-194 
Filtros de estatistica de ordem. Veja Filtros espaciais 
Filtros de média. Veja Filtros espaciais 
Filtros de mediana, 101-102, 214, 255 
adaptativos, 218-220 
atualização de, 129 
Filtros de reconstrução perfeita, 312-313 
Filtros de resposta ao impulso finita (FIR), 172, 311 
Filtros espaciais. Veja também Filtragem espacial 
adaptativo de mediana, 218-220 
adaptativo local, 217-218 
aguçamento, 102-110 
alfa cortada, 214 
definição, 68 
estatísticas de ordem, 101-102, 213 
geração de, 99 
gradiente, 108 
high-boost, 107 
isotrópico, 105 
Laplaciano, 105-107 
máscara de nitidez, 107 
max, 102, 214 
média, 99 


= 


média aritmética, 211 
média contra-harmônica, 212 
média geométrica, 211 
média harmônica, 211 
média ponderada, 100 
mediana, 101, 213 
min, 102, 214 
passa-baixa, 100 
ponto médio, 214 
representação vetorial, 99 
Roberts, 109 
Sobel, 109 
suavização, 100-102, 211 
unsharp masking, 107 
iltros isotrópicos, 105 
iltros max, 99, 214 
iltros notch. Veja Filtragem de domínio da frequência 
iltros passa-alta 
espacial. Veja Filtragem espacial 
frequência. Veja Filtragem no domínio da frequência 
Filtros passa-baixa 
espacial. Veja Filtragem espacial 
frequência. Veja Filtragem de domínio da frequência 
iltros passa-banda, 192, 221, 255 


Filtros rejeita-banda, 192, 220-221, 255 
Filtros, digitais, 310-315 
bancos de filtros, 311-313 
Biortogonais (biortogonalidade), 313, 343-344 
coeficientes biortogonais de Cohen-Daubechies- 
-Feauveau, 344 
coeficientes de Haar, 329 
coeficientes ortonormais 8-tap de Daubechies, 314 
coeficientes symlet (ortonormais de 4º ordem), 335 
coeficientes, 310 
convolução e, 310 
FIR, 311 
JPEG-2000 irreversivel, 97, 403 
modulação nos, 311 
ordem dos, 310 
ordem reversa nos, 311 
ortonormais, 313-314, 330, 335 
protótipos, 313 
reconstrução perfeita, 312 
resposta ao impulso finita, 311 
resposta ao impulso, 311 
sinal reverso nos, 311 
taps do filtro, 310 
Fonte de memória zero, 352-353 
Fontes de Markov, 354 
Formatos de arquivo de imagem e contêineres de 
imagem, 356-358 
Formatos para compressão de imagens, 356-357, 358 
Fotoconversor, 29 
Fotodiodo, 30 
Fótons, 5, 28 


Frame buffers, 19 


Frente, 45, 53 
Frequência de corte, 176 


Fronteira. Veja também Contorno, Descritores regionais 
algoritmo de rastreamento de fronteira de Moore, 524 
aproximação poligonal, 527-532 
assinaturas, 532-533 
códigos da cadeia, 525 
curvatura da, 537 
decomposição da, 533-535 
definição, 45 
descrição, 536-541 
descritores de Fourier para, 538-541 
detecção da, para segmentação, 478-486 
diâmetro, 537 
excentricidade da, 537 
extração, 124, 424 
ligação de bordas e, 478-486 
momentos estatísticos de, 541 
números de formas de, 537-538 
pixels, 45-46 
representação, 523-536 
segmentos, 533-535 
seguidor de fronteira, 523-525 
tamanho, 537 

Função de custo clássicas, 342 

Função de decisão, 570 

Função de espalhamento de ponto, 226 

Função de modulação, 224 

Função de ponderação, 224 

Função densidade de probabilidade (PDF - probability 

density function), 80-82, 206-210, 575-580 

Erlang, 207 

estimativa de parâmetro, 210 

exponencial, 207 


gama, 207 
Gaussiana, 49, 206, 576 
impulso, 101, 207 
Rayleigh, 207 
sal e pimenta, 101, 207 
uniforme, 207 
Função massa de probabilidade (PMF - probability mass 
function), 360 
Funcionalmente completo, 53 
Funções de banda limitada, 140-141, 147-148 
Funções de base, 318, 375, 376-377 
de Haar, 315 
de Walsh-Hadamard, 375 
expansão de série utilizando, 317-318 
transformada discreta do cosseno, 376 
Funções de pertinência (características), 54, 112-116 
Funções de translormação linear por partes, 74-78 
Funções wavelet, 321 
características de tempo-frequência, 331-333 
coeficientes de, 322 
de Haar, 322 
separáveis 2-D, 333 
Fundo da imagem (background), 45, 53 


G 


Gama 
correção, 73 
ruído. Veja Ruído 
Geração de imagem acústica, 13-14 
Geração de imagens multiespectrais, 9, 59, 279-280, 
544, 557-560, 578-580 
Geração de imagens por raios gama, 6, 12, 30 
Geração de imagens por ressonância magnética (MRI - 
magnetic resonance imaging), 12, 32, 58, 73, 242 
Geração de imagens por ultrassom, 12, 29, 242, 254 
Geração de imagens sintéticas, 13 
Gradiente, 108-110, 296-298, 444, 464-470 
aguçamento, 108-110 
borda normal (vetor), 466 
bordas, 110, 296-298 
derivadas de primeira ordem, como, 108-110 
detecção de bordas, 464-470 
limiarização, combinada com, 469-470 
morfologia em escala de cinza, 444 
morfológico, 444 
operadores de Prewitt, 467-468 
operadores de Roberts, 108-109, 467-468 
operadores de Sobel, 108-110, 467-468 
operadores, 108-110, 296-298, 464-469 
propriedades, 464-466 
segmentação de cores, 296-298 
Granulometria, 445-446 


H.261, H.262, H.263 e H.264, 356-357, 392-394 
Hertz (Hz), 27 
Homogeneidade, 47, 226, 548 


IEC, 356 

Iluminação, 33, 488 
correção, 50-51, 444, 498 
modelo de imagens, 33, 190-191 
não uniforme, 50-51, 444, 488, 498 
segmentação e, 488 
fonte, 29-33 
padrão, 434, 608 
luz estruturada, 17 
resposta do olho à, 11, 23, 25 

Ilusões de óptica, 26-27 

Imagem 
ampliação (zoom), 42, 56, 150 
análise, 2 
aquisição, 29-33 
borrão, 228-230 
cisalhamento. Veja Transformações geométricas 
compressão. Veja Compressão 
deconvolução, 227 
elemento. Veja Pixel 
escala. Veja Transformações geométricas 
filtragem. Veja Filtragem 
iluminação. Veja Iluminação 
intensidade. Veja Intensidade 
interpolação. Veja Interpolação 
modelo de formação, 33, 190 
morfologia. Veja Processamento morfológico de 

imagens 


pixel. Veja Pixel 

processamento de cores, 260-305 

realce. Veja Realce 

reamostragem, 42, 150, 408, 526 

refletância, 33, 190 

registro (registradas), 48, 58, 512, 555 

restauração. Veja Restauração de imagens 

rotação. Veja Transformações geométricas 

segmentação. Veja Segmentação 

sensores, 29-32 

sensoriamento, 5-15, 29-32 

translação. Veja Transformações geométricas 
Imagem ativa, 50 
Imagem de referência, 58-59, 511-513, 515 
Imagens binárias, 46, 415-416 

compressão de, 367, 371 

fronteira de, 45 

operações lógicas em, 53-54 

operações morlológicas em, 415-437 

segmentação e, 292-293, 459, 478, 509 

seguidor de fronteira, 523-524 
Imagens de base. Veja Funções de base 
Imagens de diferenças acumulativas (ADI - accumulative 

difference images), 513 
Imagens fractais, 15 
Implementação da codificação por zonas, 380 
Implicação em conjuntos fuzzy, 116-119, 121 
Impulso 

contínuo, 133-134, 146-147 

discreto, 96-98, 146-147 

propriedade de peneiramento (sifting) do, 133-134, 

146-147, 310-311 

resposta, 172, 226-228, 311, 314, 403 

ruido, 101-102, 207-208 

trem, 134, 136-137, 148 

unitário discreto, 96-98, 134, 146-147 
mpulso unitário. Veja Impulso 
Impulso unitário discreto. Veja Impulso 
Informações da imagem, 352-354 
nfravermelho (infravermelha), 5, 8, 13, 28, 50, 260, 

276, 279, 454, 543, 557, 579 
Integração em grande escala (LSI - large scale 

integration), 3 
ntegração em muito-grande escala (VLSI - very large 

scale integration), 5 
Integração em ultra-grande escala (ULSI - ultra large 

scale integration), 5 
ntegral de superposição, 226 
Intensidade, 1, 28, 38-42 

ajustada, 51 

escala, 34 

limiarização, 486-502 

mapeamento, 55-57, 69-94, 282, 358 

média, 91. Veja também Momentos 

métodos probabilísticos, 62, 90-94 

quantização, 34-35 

técnicas fuzzy, 112, 122-124 

transformações, 55, 68-94 

variância, 91-92. Veja também Momentos 
Interpolação, 42-44, 55-59, 143-144, 149-151, 307, 

357, 392 

bictibica, 43 

bilinear, 42 

reamostragem (redução e ampliação — zoom e 

shrink) de imagens por, 42-44 

vizinho mais próximo, 42-43 
Intervalos de frequência, 145-146 
ISO, 356 
ITU-T, 356 


J 

Jaggies, 150-151 

Janela de Hamming, 248 
Janela de Hann, 248 


L 


Laplaciano 
aguçamento com, 107, 188 
ajuste, 106 
combinado com gradiente, 110, 494 
convolução utilizando, 519 
cor, 292 
cruzamento por zero, 104, 463, 472 
da Gaussiana (LoG), 471, 519 
decomposição, 519 
definição, 105 
domínio da frequência, 163, 187, 202 
limiarização para, 459-460, 470, 494-496 
operadores, 106 
PDF, 388 
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pirâmide, 309-310 
propriedade isotrópica, 129, 460 
restauração para, 236 
Limiar. Veja também Limiarização 
básico, 70-486 
codificação, 380, 382 
combinado com borramento, 109 
combinado com gradiente, 469, 494 
combinado com Laplaciano, 495 
cor, 294 
de Bayes, 489, 576, 573-580 
de Otsu, 445, 489, 495 
global, 488 
histerese, 476-496 
local, 499-502 
múltiplo, 476, 487, 496-498 
multivariável, 294, 501-503 
ótimo, 489 
variável, 498 
Limiarização, 70, 74, 337, 381-383, 469-470, 486-502 
bordas utilizadas na, 494 
de Bayes, 489, 576, 580-581 
de Otsu, 445, 489, 495 
função, 107, 115 
fundamentos, 486 
global, 486, 487-498 
gradientes, combinados com, 469-470 
hard, 337 
iluminação, 488 
implementação de codificação, 381-383 
intensidade, 486-487 
Laplaciano, combinado com, 495 
local, 499-501 
médias móveis, 500 
medida de separabilidade, 492 
múltiplos limiares, 495 
multivariável, 294-295, 501-502 
Ótima, 489 
ponto de objeto para, 486 
refletância e, 488-489 
ruído na, 487-488 
segmentação e, 486-502 
soft, 337 
suavização na, 492 
variável, 486, 498-502 
Limiarização global. Veja Limiarização 
Limiarização variável. Veja Limiarização 
Linear 
convolução. Veja Convolução 
correlação. Veja Correlação 
filtros espaciais, 94, 99 
filtros FIR, 172 
filtros no domínio da frequência, 161 
máscaras, 98 
movimento, 230, 241 
operações, 47-48, 165, 225-227 
sistema, 133, 204, 225-227 
transformadas, 60 
Linear, de posição invariante, 225-228 
Luminancia, luz cromática e, 29, 260 
Luz, 27-29, 259-264. Veja também Espectro 
eletromagnético (EM) 
absorção da, 260-261 
acromática, 261 
banda visível do espectro EM para, 27-29, 259-260 
cor primária e secundária da, 261-262 
cromática, 261 
microscopia, 9 
monocromática, 28 
processamento de imagens coloridas e, 259-264 
visão e. Veja Percepção visual 
Luz acromática (monocromática), 28, 261 
Luz cromática (colorida), 28-29, 260 
Luz monocromática (acromática), 28, 262 


Macroblocos, 389 
Mapeador, 356-357 
Mapeamento direto, 56 
Mapeamento inverso, 57 
Mapeamento, 55-57, 86-88, 351, 355-356. Veja também 
Mapeamento de intensidade 
codificação (compressão) e, 355 
decodificação (descompressão) e, 356 
direto, 55-57 
inverso, 57, 356 
processamento de histograma e, 86-87, 87-88 
Marca d'água em imagens digitais, 405-411 
diagrama de blocos para, 406 
razões para, 405 
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Marcadores 


limiarização, 494 
reconstrução morfológica para, 433-438, 447 
watersheds para, 510-511 


Marcas d'água, 405-411 


ataques a, 408 
inserção e extração, 409-410 
invisíveis robustas, 408 


invisível frágil, 408 
LSB, 407 
marca d'água invisível, 408-409 
marca d'água visível, 405, 408 
privada (ou de chave restrita), 408 
pública (ou de chave não restrita), 408 
robusta invisível, 409 
Marcas fiduciais, 61 
Marcas reseau, 58 
Máscaras. Veja também Filtros espaciais 
definição, 69 
função de mascaramento, 377 
limiar, 381 
máscara de nitidez e, 107-108 
unsharp masking e, 107-108 
Matiz, processamento de imagens coloridas e, 261-263, 
268-273 
Matriz de autocorrelação, 397 
Matriz de coocorrência, 547-551 
Média da intensidade. Veja Momentos 
Médias de movimento para limiarização, 500-501 
Medidas de distância, 46, 59-60, 294-295, 501-502, 
532, 537, 571-573, 577, 593 
Método de Otsu. Veja Limiar, Limiarização 
Microdensitômetro, 31 
Micron, 27 
Micro-onda, 5, 12, 28, 276 
Microscopia de fluorescência, 7-8 
Microscopia eletrônica, 5, 13, 14, 29, 166 
Microscópio eletrônico de transmissão (TEM — 
transmission electron microscope), 14 
Microscópio eletrônico de varredura (SEM - scanning 
electron microscope), 14, 75, 93, 166 
Minkowsky 
adição, 451 
subtração, 451 
M-JPEG, 356, 358 
Modalidades de geração de imagens, 6-15 
Modelo de cores CMY, 265, 268 
Modelo de cores HSI, 265, 268-273, 292-294 
conceito de planos, 269-270 
conversão a partir de RGB, 270-272 
conversão para RGB, 272-273 
manipulação de imagens, 273 
segmentação, 292-294 
uso, 268 
Modelo de, 205 
Modelos de cor RGB, 264-265, 265-268, 271-273, 294-296 
conceito de cubo, 265-268 
conversão a partir do formato HSI, 272-273 
conversão para o formato HSI, 270-272 
cores seguras, 266-268 
segmentação e, 294-296 
Modelos de probabilidade, 363-364 
Modelos de processamento distribuído paralelo (PDP - 
parallel distributed processing), 581 
Modulação cruzada, 312 
Modulação delta (DM - delta modulation), 395-396 
Modulação por código de pulso diferencial (DPCM - 
differential pulse code modulation), 396-398 
Modulação, 311 
Momentos (métodos) 
Estatísticos (probabilísticos), 62, 541, 545, 566, 569 
invariantes, 552-555 
Momentos estatísticos. Veja Momentos 
Morfologia em escala de cinza, 437-449. Veja também 
Processamento morfológico de imagens 
abertura, 441-443, 447 
dilatação, 440-441, 447 
erosão, 440-441, 447 
fechamento, 441-443, 447 
gradiente, 444 
granulometria, 445-446 
reconstrução, 447-449 
segmentação de texturas, 446-447 
suavização, 443 
transformação bottom-hat, 444-445 
transformação top-hat, 444-445 
Movimento na segmentação, 511-516 
imagens de diferenças acumulativas (ADI - 
accumulative difference images), 512 
imagens de referência, determinação de, 513 
técnicas espaciais para, 511-513 
técnicas no domínio da frequência para, 513-516 
MPEG-1, MPEG-2, MPEG-4 (AVC), 356, 357, 393-394 


Nanômetro, 27 

Não linear 
filtragem, 94, 100-101, 108, 213, 217,573 
operação, 47-48, 66 

Negativo de imagem, 53, 55, 70-71 

Nível de cinza, 1, 28, 33, 69. Veja também Intensidade 

Números complexos, 133 

Números de formas, 537-538, 593-594 


0 


Olho humano. Veja Percepção visual 
Ondas de rádio, 5, 27-28 
Operações aritméticas, 48-51 
Operações com vetores, 59-60, 99, 280-281 
filtragem espacial, 99 
operações com matrizes e, 59-60 
processamento de imagens full-color, 280-281 
Operações de arranjo matricial, 47 
Operações de conjuntos, 50-53, 54, 415-417, 417-420, 
420-422. Veja também Conjuntos fuzzy 
abertura, 420-422, 441-443 
classicos, 54 
conceito fuzzy das, 54, 112-126 
dilatação, 418-420 
erosao, 417-418, 419-420 
fechamento, 420-423 
fundamentos, 51-53 
processamento morfológico de imagens e, 415-417, 
417-420, 420-422 
Operações de matriz, 36, 46-47, 59-60 
notação para pixels, 36 
operações de arranjo matricial versus, 46-47 
operações de vetor e, 59-60 
Operações espaciais, 55-59 
Operações lógicas, 53-54 
Operações ponto a ponto, 55 
Operadores de gradiente de Prewitt. Veja Filtros 
espaciais 
Operadores de gradiente de Sobel. Veja Filtros espaciais 
Operadores gradientes diagonais de Roberts, 108-109, 
467 
Ortonormalidade, 313 


P 


Pacotes wavelet, 338-345 
árvores de análise subespaço, 338 
funções de custo para escolha, 341-343 
representação de árvore binária, 338-343 
Padrões, 569-598 
análise de discriminante (decisão) para, 569, 571 
casamento, 570-575, 593-595 
classe Gaussiana, 576-580 
classes linearmente separáveis, 583 
classes não separáveis, 584-585 
classificadores, 571-573, 575-580 
estrutura de classes e, 569-570 
geração de vetores para, 569 
perceptrons e, 581-583, 583-585 
reconhecimento de objetos e, 568-593 
reconhecimento e, 568-598 
reconhecimento multiclasses, 591-593 
redes neurais e, 580-593 
retropropagação e, 588-591 
superfícies de decisão e, 591-593 
treinamento (aprendizado), 580-593 
Padrões de compressão da imagem, 356-358 
Padrões moiré e, 151-152, 194 
Padrões para a compressão de images, 356-357, 358 
Pares de corrida, 351, 366 
Pares de linha 
por mm, 38 
por unidade de distância, 38 
Pares ordenados, 52. Veja também Produto cartesiano 
PDF, 356, 358, 373 
Pel. Veja Pixel 
Percentil, 102, 214, 494-495 
Percepção visual, 22-27, 259-264 
absorção da luz, 261 
adaptação ao brilho, 25 
bandas de Mach, 26 
brilho subjetivo, 25 
contraste simultâneo, 26 
discriminação entre mudanças, 22 
estrutura física do olho humano, 22-23 
formação da imagem no olho, 24-25 
ilusões de óptica, 27 
processamento de imagens coloridas e, 260-303 
razão de Weber, 25-26 


Perceptrons, 581-585 
Phantom de Shepp-Logan, 245 
Pirâmide Gaussiana, 308 
Pirâmide média, 308 
Pirâmides de aproximação, 308-310 
Pirâmides de imagens, 307-310 
Pirâmides de subamostragem, 309 
Pixel(s) 
adjacência de, 44 
caminho, 44 
conectividade, 44 
definição, 1, 36 
distância entre, 46 
interpolação. Veja Interpolação 
operação ponto a ponto, 55 
operações de arranjo matricial, 47 
operações de vizinhança, 55. Veja também Filtragem 
espacial 
por unidade de distância, 38 
relações entre, 44 
transformação. Veja Transformações de intensidade 
vizinhos de, 44 
Pixels conexos, 45 
Poda. Veja Processamento morfológico de imagens 
Polígono de perímetro mínimo (MPP - minimum- 
-perimeter polygon), 527-531 
Pontos (pixels) 
por polegada (DPI, de dots per inch), 38, 153, 369 
por unidade de distância, 38 
Pontos de controle (tie points), 58 
Pontos em meio-tom (halftone), 152 
Preenchimento de buracos, 424-425, 435, 438-439, 452 
Previsor de pixel prévio, 387 
Primeiro teorema de Shannon, 353 
Princípio da incerteza de Heisenberg, 333 
Probabilidade adaptativa dependente de contexto, 364-365 


Processamento de histograma, 78-94, 288-290 

casamento, 84-90 

definição, 78-79 

especificação, 84-90 

estatísticas, uso de, 91-94 

função densidade de probabilidade (PDF - probability 
density function) para, 80-82 

global, 78-90 

local, 90-94 

normalizado, 78-79 

transformação de cores utilizando, 288-290 

transformação de intensidade, 79, 82 

transformação inversa, 80, 83 


Processamento de imagens coloridas, 259-305 


“gradiente” de cores, 297 

aguçamento, 292 

coeficientes tricromáticos, 262 
compressão e, 301 

correções de cor, 286 

detecção de bordas, 296 

diagrama de cromaticidade, 263 
fatiamento de cores, 284-285 
fatiamento de intensidade, 274 
“gradiente” de cores, 297 

Modelo CMY, 265, 268 

Modelo CMYK, 265, 268 

modelo HSI, 265, 268-273 

modelo RGB, 264-265, 265-268 
modelos de, 264-273 

processamento de histograma, 288-289 
processamento de imagens coloridas, 259, 280-281 
pseudocores, 259, 274-280 

ruído no, 298-300 

segmentação, 294-298 

suavização no, 290-292 

ransformação de intensidade para cor, 276 
transformações no, 281-290 


Processamento de imagens em pseudocor, 259, 274-280 


atiamento de intensidade para, 274-276 
imagens monocromáticas e, 277-280 
transformações de intensidade em cor, 276-277 
ransformações de, 276 


Processamento digital de imagens. Veja também Imagem 


definição, 1 

undamentos, 22-67 
processamento de nível alto, 2 
passos, 15-18 

história, 2-5 

origens, 2-5 

áreas, 5-15 

sensores para, 16, 29-33 


Processamento digital de sinais (DSP - digital signal 


processing), 310-312 


Processamento estocástico de imagens, 63 


Processamento morfológico de imagens, 415-453 
abertura, 420-422, 434, 438, 441-443 
afinamento, 428-429 
componentes conexos, 425-426 
correção de sombreamento, 445 
dilatação, 418-419, 433-434, 440-441 
elemento estruturante, 416 
erosão, 417-418, 433-434, 440-441 
escala de cinza, 437-449 
espessamento, 428-429 
esqueletos, 429-430. Veja também Esqueletos 
extração de fronteiras, 424 
fechamento, 420-422, 441-443 
fecho convexo, 426-428 
filtragem sequencial alternada, 443 
filtragem, 415, 418, 422, 443, 453 
gradiente, 444 
granulometria, 445 
imagens binárias, resumo, 437, 439 
limpeza de borda. Veja Reconstrução morfológica 
operações de conjuntos para, 51-53, 415-417 
poda, 430-433 
preenchimento de buracos, 424-425, 437-438 
preliminares, 415-417 
reconstrução. Veja Reconstrução morfológica 
reflexão de conjuntos em, 437 
segmentação textural, 446 
suavização, 443 
sumário de operações de, 437-439 
top-hat branco, 444 
top-hat preto, 444 
transformação bottom-hat, 444 
transformação hit or miss, 423-424 
transformações top-hat, 444, 447 
translação de conjuntos em, 416 

Processamento multirresolução, 306-347 
análise multirresolução (MRA - multiresolution 

analysis), 317, 320-321 
codificação em sub-bandas, 310-315 
equação MRA, 320 
expansão de série, 317-319, 323-324 
expansões, 317-323 
funções de escala, 317, 319-321, 334 
pirâmides de imagem, 307-310 
teoria do, 306 
transformada de Haar, 315-317 
wavelets e, 307-347 

Processamento ponto a ponto, 69-70 

Produto cartesiano, 37, 117, 438 

Programa de Satélites Meteorológicos e de Defesa 
(DMSP - Defense Meteorological Satellite Program), 9-10 

Projeções, reconstrução de imagens a partir de, 238-254 

Propriedade de cruzamento por zero, 104, 471-472, 
470-473 

Propriedade de Sifting. Veja Impulso 


0 


Quadros bidirecionais (B-frames), 389 
Quadros independentes (I-frames), 388-389 
Quadros preditivos (P-frame), 399 
Quantização, 34-44, 352, 355-356, 395-396, 398-399, 
401-402. Veja também Amostragem 
codificação preditiva e, 395, 399-403 
interpolação e, 42-44 
mapeamento e, 351, 355-356 
ótima, 399-400 
projeto de codificação wavelet de, 401-402 
quantizador de Lloyd-Max, 399 
resolução de intensidade e, 38-42 
zona morta, 401 
Quantizador de Lloyd-Max, 399 
Quicktime, 356, 358 


R 


Radiância, luz cromática e, 28-29, 260 
Radiografia em modo máscara, 49 
Raios X, 6, 75, 102, 199, 212, 238, 240, 276, 426, 441, 
443, 459, 481, 503, 505 
Razão de Weber, 25-26 
Realce 
adaptativo, 83, 217, 218 
aguçamento, 102-103, 183 
alargamento de contraste, 69, 74-75 
de contraste, 73, 83-84, 121-122, 189, 203 
definição, 15, 70, 132 
domínio da frequência, 167-195 
filtragem homomórfica, 190 
filtro de mediana, 101, 128, 213, 218, 255 
filtros de estatística de ordem, 101, 213 
filtros espaciais, 94-110 
local, 90, 93, 217-218 


média de imagens, 48 

métodos combinados, 110-112 

processamento de histograma para, 78-94 

suavização, 48, 100, 175 

subtração de imagens, 49 

técnicas fuzzy para, 122-125 

transformações de intensidade, 70-78 
Reamostragem. Veja Reamostragem de imagens 
Reconhecimento, 17-18, 569-598 

análise discriminante, 569 

aprendizagem, 568 

casamento com números de formas, 593-594 

casamento de strings, 594 

casamento e, 571-575, 594-595 

classificador de Bayes, 575-580 

classificadores ótimos, 575-576 

classificadores para, 570-574, 575-580 

coeficiente de correlação, 574-575 

correlação, 573-575 

distância mínima, 570-571 

métodos estruturais para, 593-595 

métodos por decisão teórica para, 570-593 

padrões, 568-593 

redes neurais para, 580-593 

seleção de características, 569 
Reconhecimento de objetos. Veja Padrões, 

Reconhecimento 
Reconstrução, 141, 143, 238-254, 433-439, 447 

filtro de Ram-Lak, 247 

filtros, 141 

função, recuperação de uma, 143 

laminograma, 245 

morfológica em escala de cinza, 447-450 

morfológica, 433-437, 447-450 

phantom de Shepp-Logan, 245 

projeções, de, 238-254 

restauração de imagens por, 238-254 

retroprojeção, 239-241, 246-250, 250-254 

retroprojeções filtradas por feixes em formato de 

leque, 250-254 

retroprojeções filtradas por feixes paralelos, 246-250 

senograma, 244 

teorema da fatia de Fourier para, 246 


tomografia computadorizada (CT - computed 
tomography), 240-242 
transformada de Radon para, 242-245 
Reconstrução morfológica, 433-437, 447-449 
abertura por, 434, 438, 447 
dilatação e erosão geodésica, 433-434 447 
dilatação pela, 434, 447 
erosão pela, 434, 447 
imagens em escala de cinza e, 447-449 
limpeza de borda e, 438-439 
preenchimento de buracos e, 438-439 
top-hat por, 447 
Redes neurais, 580-593 
Redes neurais multicamadas feedforward, 585-593 
algoritmos para, 583-585 
histórico, 581 
multicamadas feedforward, 539-593 
padrões de treinamento, 581 
perceptrons para, 581-583, 583-585 
processo de treinamento (aprendizado) para, 581-593 
superfícies de decisão, complexidade de, 591-593 
treinamento por retropropagação, 587-591 
Redução. Veja Reamostragem de imagens 
Redução de ruídos (denoising), 204, 337 
Redundância, 349-351 
codificação, 349, 349-351 
dados relativos, 349 
espacial, 349, 349-351 
temporal, 349, 349-351 
Redundância espacial, 349, 351 
Redundância temporal, 349, 351 
Refletância, 28, 33, 190-191, 488 
Região 
crescimento de. Veja Segmentação baseada em regiões 
de interesse (ROI - region of interest), 50, 404, 425, 
432, 506 
definição, 45 
descritores de. Veja Descrição 
divisão de. Veja Segmentação baseada em regiões 
quadtree, 505 
Registro de imagens, 48, 58, 512, 555 
Regra de incremento fixo de correção, 583 
Regra delta de mínimos quadrados, 584 
Relações sinal-ruído (SNR - signal-to-noise ratios), 232- 
233, 354 
Representação, 17, 523-567 
aproximação poligonal, 527-531, 531-532 
assinaturas para, 532-533 
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códigos da cadeia para, 525-527 
descrição e, 524-567 
esqueletos, 535-536 
segmentos de fronteira para, 533-535 
seguidor de frointeira, 523-567 
Resíduos de previsão, 388 
compensação de movimento, 388-394 
pirâmide, 308, 309 
Resolução espacial, 38-42 
Restauração, 16, 204-258 
deconvolução, 227 
deconvolução cega, 227 
degrações lineares, positivo-invariantes, 225-227 
degradaçãodeumaimagem, 204, 205,225-227,227-230 
tragem de dominio da frequência para redução 
de ruído, 220 
tragem de mínimo erro médio quadrático, 232-235 
tragem de Wiener, 232-234 
tragem espacial para redução de ruído, 211-220 
tragem inversa, 230-232 
tragem por mínimos quadrados com restrições, 
235-237 
tro de equalização de espectro, 238 
tro de média geométrica, 237-238 
tro de mínimo erro quadrático, 232 
tro de Wiener paramétrico, 238 
unções de degradação, estimativa, 227-230 
modelos de ruído para, 205-211 
reconstrução. Veja Reconstrução 
redução de ruído e, 211-220, 220-225 
Retroprojeções, 239-240 
borramento com efeito de halo devido a, 239-240 
filtradas por feixes em formato de leque, 250-254 
filtradas por feixes paralelos, 246-250 
filtradas, 246-249, 250-254 
Retroprojeções filtradas por feixes em formato de 
eque, 250-254 
Ruído, 34, 37,91 
bipolar, 207 
branco, 205, 234, 337, 474, 515 
data-drop-out, 207 
Erlang, 207 
espectro de potência, 232 
estimativa de parâmetros, 210 
exponencial, 207 
funções densidade de probabilidade (PDF - 
probability density function), 206-210 
gama, 207 
gaussiano, 49, 206 
imagens coloridas em, 298 
impulsivo, 101, 207 
modelos, 205 
periódico, 194, 208-210, 220 
propriedades espaciais e de frequência do, 205,206 
Rayleigh, 206 
reducao, 48. Veja também Filtragem 
sal e pimenta, 101, 207 
spike, 207 
uniforme, 207 
unipolar, 207 
Ruido branco. Veja Ruido 
Ruido de Erlang (gama), 207 
Ruido exponencial, 207 
Ruído Gaussiano. Veja Ruído 
Ruído granular, 396 
Ruído Rayleigh. Veja Ruído 
Ruído sal e pimenta. Veja Ruído 


S 


Satélite LANDSAT, 9, 515, 544 
Saturação, 37, 195-262 
Segmentação, 454-522 
baseada em bordas. Veja Detecção de bordas 
baseada em frequência, 513-516 
baseada em textura, 506 
cores, 292-298 
crescimento de regiões. Veja Segmentação baseada 
em regiões 
definição, 455 
detecção de linhas, 459 
detecção de pontos, 459 
fundamentos, 455-458 
limiarização. Veja Limiarização 
movimento e, 511-516 
watersheds. Veja Watersheds 
Segmentação baseada em regiões, 502-506 
crescimento de regiões, 502-504 
divisão de regiões, 504-506 
regiões de mesclagem, 504-506 
Seleção de características. Veja Descrição 
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622 Processamento digital de imagens 


Sensores, 18, 29-33, 35 
amostragem e quantização utilizando, 35 
aquisição e, 29-33 
arranjos, 32, 35 
componentes de aquisição de imagens para, 18 
modelo de formação de imagens para, 33 
resfriamento, 49 
único, 30 
varredura de linha, 31-32, 35 

Sensoriamento remoto, 8, 348, 575, 578 

Série de Fourier, 131-132, 133 

Síntese FWT, 331 
análise de pacotes wavelet, 340 

Sistema Bartlane de cabos, 2-3 

Sistema baseline sequencial, 382 

SMPTE, 356 

Sobrecarga de inclinação, 396 

Software para geração de imagens, 18-19 

Soma de distorções absolutas (SAD - sum of absolute 
distortions), 390 

Suavização. Veja Filtragem 

Subamostragem, 314-315 

Subsistema front-end, 19 

Superamostragem, 150 

Superfícies de decisão, complexidade das, 591-593 

Suporte compacto, 320 

Symlets, 335 


T 


Taxa de bits, 356 
Taxa de Nyquist, 140. Veja também Amostragem 
Tecnicas espaciais para o movimento na segmentação, 
511-5 
Televisão de alta definição (HD), 348 
Televisão de definção padrão (SD - standard definition), 
348-349 
Teorema da codificação sem ruído, 353 
Teorema da fatia de Fourier, 246 
Teoria da informação, 352-354 
Textura, 446-447, 506, 545-552 
abordagens espectrais à, 545-552 
abordagens estatísticas à, 551 
abordagens estruturais à, 551 
descrição pela, 545-552 
histograma de intensidade para, 545-546 
matriz de coocorrência para, 546-550 
morfologia em escala de cinza e, 446-447 
segmentação, 446-447, 506 
Tie points (pontos de controle), 58 
TIFF, 356, 358, 364 
Tight frame, 318 
Tiles (ou plano) de tempo-frequência, 331-332 
tiling, 15, 333 
Tokens, 369 
Tomografia axial computadorizada (CAT - computed 
axial tomography). Veja Tomografia computadorizada 
Tomografia computadorizada (CT - computed 
tomography), 4, 7, 39, 204, 238-254 


Tomografia computadorizada por feixe de elétrons, 242 


Tomografia por emissão de pósitrons (PET - positron 
emission tomography), 6, 32, 58, 191, 242, 254 
Top-hat por reconstrução, 447 
Transformação, 55-59, 68-130, 423-424, 444-446 
afim, 55-58 
bottom-hat, 444-446 
domínio na, 68 
espacial, 55, 68-112 
geométrica (rubber sheet). Veja Transformações 
geométricas 
hit or miss, 423-424 
intensidade, 68-130 
kernels, 61 
morfologia em escala de cinza e, 444-446 
processamento morfológico de imagens e, 423-424 
rubber sheet, 55, 543 
top-hat por reconstrução, 447 
top-hat, 444-446 
Transformação afim, 55-57. Veja também 
Transformações geométricas 
Transformação do eixo medial (MAT - medial axis 
transformation), 535-536 
Transformação hit-or-miss, 423-424 
Transformação top-hat, 444-446 
Transformações de cores, 281-290 
circulo de cores para, 283 
complementos, 283-284 
correções de cor e tom, 286-288 
fatiamento, 284-286 
formulação para, 281-283 


intervalo de tonalidade para, 287 
perfis para, 286-287 
processamento de histograma para, 288-290 
sistemas de gerenciamento de cores para, 286-288, 289 
Transformações de intensidade, 70 
alargamento de contraste, 69, 74-75 
casamento de histogramas, 84-90 
equalização de histograma, 78-84 
especificação de histograma, 84-90 
fatiamento de nível de intensidade, 75 
fatiamento por planos de bits, 76-77 
gama, 71-72 
lei de potência, 71-72 
linear por partes, 74 
local, 90-94 
logarítimas, 71 
negativo, 70 
Transformações de potência (gama), 71-74 
Transformações geométricas, 55-59 
afins, 55 


cisalhamento, 57 
escala, 57 

identidade, 57 

pontos de controle, 58 
rotação, 57 

tie points, 58 
translação, 57 


Transformações logarítmicas, 71 
Transformações rubber sheet, 55-59 
Transformada 


de Haar, 315-317 

de Hough, 483-486 

de Radon, 241-242, 245 

de Walsh-Hadamard (WHT - Walsh-Hadamard 
transform), 375-376 

discreta de cosseno (DCT - discrete cosine transform), 
376. Veja também Compressão JPEG 


Transformada de Fourier, 134-166 


amostragem e, 137-143, 147-152 

contínua, 134-147 

convolução. Veja Convolução 

discreta. Veja Transformada discreta de Fourier 

espectro de potência, 158 

história, 131-132, 200 

par, 60-61, 135-136, 137, 144, 147, 153,573 

transformada Rápida de Fourier (FFT - fast Fourier 
transform ). Veja transformada discreta de Fourier 


Transformada discreta de Fourier (DFT - discrete Fourier 


transform) 

ângulo de fase, 158, 163-164 

bidimensional, 152-153 

convolução circular. Veja Convolução 

correlação circular. Veja Correlação 

derivação da, 133-139 

erro wraparound, 161-162 

espectro, 136, 147, 158, 164 

implementação, 195-199 

par, 1-D, 196 

periodicidade da, 154-155 

preenchimento com zeros, 162-163 

preenchimento, 162-163 

propriedades, 153, 163 

propriedades de simetria, 156 

representação polar, 164 

separabilidade, 164 

transformada rápida de Fourier (FFT - fast Fourier 
transform), 197-199 

valor médio, 158-159, 163 


Transformada discreta de wavelet (DWT - discrete wavelet 


transform), 324-326, 333. Veja também Wavelets 


Transformada inversa de Fourier. Veja Transformada de 


Fourier, Transformada discreta de Fourier 


Transformada rápida de Fourier (FFT - fast Fourier 


transform). Veja Transformada discreta de Fourier 


Transformada rápida de wavelet (FWT - fast wavelet 


transform), 327-335, 338-344 

banco de filtros de análise, 328-329, 334-335 

banco de filtros de síntese, 331-332, 334-335 

bidimensional, 333-336 

compressão da imagem utilizando, 399-406 

inversa, 330-331 

pacotes wavelet para, 338-344 

plano de tempo-frequência, 332 

processamento multirresolução utilizando, 327-333, 
333-334 


Transformada wavelet contínua (CWT - continuous 


wavelet transform), 326-327 
critérios de admissibilidade, 326 
escala e translação na, 326 


Transformadas bottom-hat, 444-445 


Transformadas, 60-62, 68, 241-242, 245, 315-317, 


323-327, 311-338, 374-386 

codificação por transformada de bloco, 374-386 

componentes principais, 555-561 

cosseno discreto, 62, 357, 376 

de Haar, 62, 315-317 

de Hotelling, 556-561 

de Hough. Veja Transformada de Hough 

de Radon, 241, 242-246 

de Walsh-Hadamard, 62, 375 
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